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Geleitwort 

Viele, wenn nicht sogar die meisten Wirtschaftsgeschehen, die man mit ökonometrischen 
Modellen zu erklären versucht, sind im Zeitverlauf durch diskontinuierliche oder kontinuierli- 
che strukturelle Veränderungen gekennzeichnet. In diesen Fällen stellen Modelle mit kon- 
stanten, d.h. zeitunabhängigen Parametern insofern keine adäquaten Erklärungsansätze dar, 
als strukturelle Veränderungen, seien es Veränderungen in den Verhaltensweisen der Wirt- 
schaftssubjekte oder seien es Veränderungen in den Produktionsprozessen, zu Änderungen 
der Modellparameter führen. 

Seit den sechziger Jahren sind zahlreiche Modellansätze entwickelt worden, die solche 
Veränderungen über geeignete Modellierungen zu erfassen versuchen. Darunter sind insbe- 
sondere solche Ansätze von Interesse, bei denen die Parametervariation systematisch ist und 
einem einfachen Prinzip folgt. Zum einen sind solche Modelle, deren Parametervariation von 
einem hohen Grad an Regelmäßigkeit gekennzeichnet ist, den klassischen ökonometrischen 
Modellen nahe verwandt und erlauben den Rückgriff auf die entsprechenden Schätz-, Test- 
und Prognoseverfahren. Zum anderen läßt sich das Prinzip der Veränderung der Parameter 
hier häufig inhaltlich interpretieren und gestattet die Konfrontation der Modelle mit wirt- 
schaftstheoretischen Hypothesen. 

Unter solchen Modellen mit systematischer Parametervariation stellen Regimewechselmo- 
delle eine wichtige Gruppe dar. Bei diesen Modellen unterliegen die Parameter von Zeit zu 
Zeit abrupten Sprüngen, wobei aber regelmäßig wieder frühere Parameterwerte angenommen 
werden. Diesen Modelle, deren Parametervariation verschiedenen Gesetzmäßigkeiten folgen 
kann, ist seit Beginn der neunziger Jahre neue Aufmerksamkeit zuteil geworden, als die ent- 
sprechenden Ansätze von Regressions- auf Zeitreihenmodelle übertragen wurden. 

In der vorliegenden Arbeit werden die verschiedenen Erweiterungen der Theorie zum er- 
sten Mal wieder systematisch in einem einheitlichen Rahmen dargestellt. Darüber hinaus 
werden neue methodische Ansätze, insbesondere für die bisher vernachlässigte Testtheorie, 
präsentiert. Die vorgestellten Methoden werden an verschieden Anwendungsbeispielen zur 
Problematik der Modellierung von Wechselkursen im EWS exemplarisch durchgefuhrt. Diese 
empirischen Anwendungen sind für den Leser, der sich anhand dieser Arbeit mit den neueren 
Methoden für Regimewechselmodelle vertraut machen möchte, eine wichtige didaktische 
Hilfe. Sie sind aber auch von eigenständiger Bedeutung und leisten einen interessanten Bei- 
trag für die Analyse der jüngeren Phase des EWS. 



Prof. Dr. Dietrich Lüdeke 
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1 Einleitung 

In verschiedenen ökonomischen Situationen beobachtet man periodisch auftretende, sprung- 
hafte Verhaltensänderungen der beteiligten Subjekte, die den Charakter von diskreten Struk- 
turbrüchen haben. In manchen Fällen tritt eine wiederholte Rückkehr zu früher gezeigtem 
Verhalten auf, als ob es für die betrachtete Situation verschiedene Zustände oder Regime 
{states, regimes) des Verhaltens gäbe, wobei zwischen zwei Zustands wechseln stabile Bezie- 
hungen zwischen den ökonomischen Variablen beobachtet werden. Beispiele für solches Ver- 
halten sind 

• periodische gesamtwirtschaftliche Verhaltensänderungen je nach der momentanen Phase 
des Konjunkturzyklusses, 

• die abwechselnde Preisbestimmung durch Käufer und Verkäufer auf Märkten im Un- 
gleichgewicht (“Käufer- und Verkäufermärkten”), 

• das periodische Schließen und Aufgeben von Kartellen, das sich in Preissprüngen äußert, 

• spekulatives und nicht-spekulatives Verhalten an Finanzmärkten. 

Möchte man in einer derartigen Situation eine oder mehrere Variablen durch Regressions- 
oder Zeitreihenmodelle erklären, so muß man davon ausgehen, daß die Parameter von dem 
jeweiligen Zustand abhängen. Solche verallgemeinerten Regressionsmodelle werden in der 
ökonometrischen Literatur als Regimewechselmodelle (switching regime oder switching re - 
gression models) bezeichnet. Seit Beginn der 70er Jahre kommen Regimewechselmodelle in 
der ökonometrischen Analyse zur Anwendung. Sie stehen wieder verstärkt im Zentrum me- 
thodischer und anwendungsorientierter Arbeiten, seit in den 90er Jahren Zeitreihenmodelle 
mit in dieses Konzept einbezogen wurden. 

Es gibt verschiedene Typen von Regimewechselmodellen, die sich in den Gesetzmäßigkeiten, 
welche für den Wechsel zwischen den Zuständen gelten, unterscheiden, und damit in dem 
ökonomischen Wirkungsmechanismus, der mit solch einem Modell beschrieben werden soll. 
Grundsätzlich sind zu unterscheiden 

• Modelle mit beobachtbaren Zuständen und 

• Modelle mit unbeobachtbaren (latenten) Zuständen. 

Im methodischen Teil der Arbeit werden die für die praktische Arbeit wichtigsten Aspekte 
von Regimewechselmodellen erläutert. Dabei werden einige eher theoretische Punkte, die für 
Anwendungen von untergeordnetem Interesse sind, bewußt von der Untersuchung ausge- 
klammert. Dies betrifft zum Beispiel den Zusammenhang von Regimewechselmodellen und 
dynamischen Systemen oder Fragen der Reversibilität und Invertierbarkeit von Zeitreihen- 
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1 Einleitung 



Regimewechselmodellen. 1 In diesem Sinne soll die Arbeit einen „users' guide“ für die Arbeit 
mit Regimewechselmodellen darstellen. 

Weitgehendes Einvernehmen besteht mittlerweile über die schätztechnischen Fragen im 
Zusammenhang mit diesen Modellen: Obwohl nicht immer einfach zu berechnen, wird mitt- 
lerweile fast ausschließlich mit Maximum-Likelihood-Schätzem gearbeitet. Schwierigkeiten 
bereitet jedoch nach wie vor die Modellauswahl. Selten wird die Wahl eines bestimmten Re- 
gimewechselmodells theoretisch motiviert, noch seltener versucht, die Relevanz des gewähl- 
ten Modells mit statistischen Methoden zu rechtfertigen. Der Hauptgrund hierfür liegt in der 
mangelnden Entwicklung geeigneter Testverfahren. Rene Garcia stellte hierzu fest: 

“While estimation methods for these models are by now well established such is 
not the case for the testing procedures. " 2 

Diese Lücke soll in dieser Arbeit wenigstens teilweise geschlossen werden. Ein zentrales An- 
liegen ist dabei, die verschiedenen Typen von Regimewechselmodellen, die häufig je nach 
Interesse eines Autors einseitig bevorzugt werden, in einen einheitlichen Rahmen zu stellen 
und dem Anwender objektive Kriterien bei der Auswahl aus einer möglichst breiten Palette 
von Modellen zur Verfügung zu stellen. 

Die hierfür verwendeten Tests beruhen auf den asymptotischen Verteilungen der zugehöri- 
gen Maximum-Likelihood-Schätzer, auf die deswegen soweit eingegangen wird, wie es in 
diesem Rahmen notwendig ist. Abgerundet wird der methodische Teil durch die Behandlung 
von Prognoseverfahren mit Regimewechselmodellen. 

Die Analyse mit Hilfe der verschiedenen Typen von Regimewechselmodellen wird an der 
Modellierung von Wechselkursdaten aus dem EWS veranschaulicht. Für den Kurs zwischen 
dem Französischem Franc bzw. dem Niederländischen Gulden und der DM wird die Hypo- 
these von Verhaltensveränderungen, wie sie mit Regimewechselmodellen beschrieben werden 
können, im Zusammenhang von einfachen Zeitreihenmodellen und der Kaufkraftparitäten- 
theorie untersucht. 

Um die theoretischen Ausführungen möglichst direkt mit empirischen Untersuchungen zu 
veranschaulichen, wurde die Arbeit folgendermaßen strukturiert: Der methodische Teil wurde 
unterteilt in einen allgemeinen, einführenden Abschnitt über Regime Wechselmodelle sowie je 
einen über die zugehörigen Schätzverfahren, Tests (zusammen mit Ausführungen über die 
(asymptotische) Verteilung der Schätzer) und Prognoseverfahren. Diese Themenkomplexe 
werden in den Kapiteln 2, 4, 6 und 8 behandelt. 

1 Vgl. hierzu z.B. TONG [1990]. 

2 Garcia [1998], S. 763. 
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Nach Kapitel 2, der Einführung in die Thematik von Regimewechselmodellen und einer 
Beschreibung von verschiedenen Anwendungsmöglichkeiten dieser Modelle, folgt in Kapitel 
3 eine Einführung in den empirischen Teil der Arbeit, in der die Konstruktionselemente des 
Europäischen Währungssystems (EWS) und die theoretischen Grundlagen von Wechselkurs- 
modellen für Währungen im EWS dargestellt sowie die Einsatzmöglichkeiten der zuvor be- 
handelten Regimewechselmodelle für solche Daten erläutert werden. 

Dieses Wechselspiel zwischen methodischen und empirischen Ausführungen wird in den 
folgenden Kapiteln der Arbeit fortgesetzt: An jedes der methodischen Kapitel schließt sich 
eines an, in dem die zuvor erläuterten Verfahren an einem der Anwendungsbeispiele, der Mo- 
dellierung von wöchentlichen logarithmischen Veränderungsraten des Kurses zwischen dem 
Französischem Franc und der DM, erläutert werden. Dementsprechend behandeln Kapitel 5, 7 
und 9 die Schätzung von Regime Wechselmodellen für Wochendaten des Wechselkurses zwi- 
schen dem Französischem Franc und der DM, Tests dieser Modelle und Prognosen mit ihrer 
Hilfe. In Kapitel 10 werden weitere empirische Ergebnisse präsentiert, die zum einen Wo- 
chendaten des Kurses zwischen dem Niederländischen Gulden und der DM und zum anderen 
eine Überprüfung der Kaufkraftparitätentheorie anhand von Monatsdaten des Kurses zwi- 
schen dem Französischem Franc bzw. dem Niederländischen Gulden und der DM betreffen. 
Diese Gliederung führt dazu, daß der empirische Teil über mehrere Kapitel verteilt ist. Dies 
wird hier um der gewünschten Verzahnung zwischen Theorie und Praxis willen in Kauf ge- 
nommen. 

Im abschließenden Kapitel 1 1 werden die wichtigsten methodischen und empirischen Er- 
gebnisse der Arbeit zusammengefaßt und einige weiterführende Fragestellungen im Zusam- 
menhang mit Regime Wechselmodellen und Wechselkursdaten angesprochen. 
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2 Regimewechselmodelle 



2 Regimewechselmodelle 

In diesem Kapitel werden die verschiedenen Arten von Regimewechselmodellen anhand ihrer 
wichtigsten Charakteristika erläutert. Sie werden mit alternativen Modelltypen verglichen und 
in verschiedene Konzepte der Modellierung mit variablen Parametern eingeordnet. Anhand 
von veröffentlichten empirischen Untersuchungen wird das weitreichende Spektrum ökono- 
mischer Anwendungsbeispiele beschrieben. 

In einem univariaten Regimewechselmodell soll die Variable^ durch die Variablen 

x, 

und W, =(w, w, L ) 

erklärt werden. In der vermuteten Regressionsbeziehung 

y, =W,a + X,ß+u l 

sollen sowohl der Parametervektor ß als auch die Varianz des Fehlerprozesses u t von dem 
gerade herrschenden Zustand abhängen, nicht jedoch der Parametervektor a. 3 

Der Zustand zum Zeitpunkt t wird durch die Zustandsvariable s t beschrieben, die nur end- 
lich viele (in den meisten Anwendungen zwei) Werte annehmen kann, die üblicherweise mit 
s t = 1,2... bezeichnet werden. Ein Modell mit zwei Zuständen lautet also 
fW,a + X,j3,+w,, falls 5, =1 
y ' = [\V,a + X,ß 2 + «, , falls 5 , =2, 



V 






0 ' 




~ N( 0,Q), Q = 






< U T; 









In der überwiegenden Zahl der theoretischen und empirischen Arbeiten zu Regimewech- 
selmodellen wird davon ausgegangen, daß alle Parameter zustandsabhängig sind. 4 Diese An- 
nahme ist aber in vielen Fällen theoretisch nicht gerechtfertigt und widerspricht dem allge- 
meinen Grundsatz des sparsamen Modellierens (parsimonious modelling). Sie wird vermut- 
lich getroffen, weil die Parameter sich in manchen Fällen so leichter schätzen lassen. In dieser 
Arbeit wird durchgehend der allgemeine Fall betrachtet, in dem zustandsabhängige und 
-unabhängige Parameter vorliegen. 

3 X und W dürfen natürlich keine gemeinsamen Variablen enthalten, da sonst die entsprechenden Parameter 
nicht identifiziert sind. 

4 Eine Ausnahme bildet LOdeke [1973], sowie Lüdeke, HUMMEL und RÜDEL [1989], S. 114 ff., im Kontext 
variabler Parameter. Zu dem Zusammenhang zwischen Regimewechselmodellen und Modellen mit variablen 
Parametern vgl. Kapitel 2.4.1. 
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Zur vollständigen Spezifikation des Modells ist festzulegen, welchen Gesetzmäßigkeiten die 
Zustandsvariable s t folgt. Hier sind zwei Extremfälle zu unterscheiden: 

• die Zustandsvariable hängt direkt (funktional) von einer (oder mehreren) beobachteten 
Variablen ab, dem sogenannten Zustandsindikator 

• die Zustandsvariable ist nicht direkt beobachtbar (“latent”) und stellt eine zusätzliche sto- 
chastische Komponente dar oder repräsentiert fehlende Einflußgrößen in einem nicht voll- 
ständig spezifizierten Modell. 

Diese beiden Modelltypen werden in den Kapiteln 2.1 und 2.2 behandelt. Modelle, bei denen 
die Zustandsvariable nicht beobachtet werden kann, werden „in Reinform“ in Kapitel 2.2.1 
betrachtet. In Kapitel 2.2.2 wird auf Modelle eingegangen, bei denen unvollständige Informa- 
tionen über den nicht beobachteten Zustand vorliegen. Diese Modelle können aber, wie später 
erläutert wird, auch als Verallgemeinerungen der in Kapitel 2.1 behandelten Fälle angesehen 
werden. 

Verallgemeinerungen auf mehr als zwei Zustände sind denkbar. Modelle mit mehr als zwei 
Zuständen lassen sich aber nur selten theoretisch überzeugend rechtfertigen. Zudem benötigen 
sie eine mit der Zahl der Zustände rapide wachsende Anzahl von freien Parametern. Schon in 
einem Modell mit zwei Zuständen ist die Zahl der freien Parameter etwa doppelt so hoch wie 
in einem gewöhnlichen Modell, weswegen die Verwendung eines Regimewechselmodells 
immer statistisch gerechtfertigt werden sollte. Modelle mit drei oder mehr Zuständen scheinen 
jedoch in Anwendungen nur selten signifikant besser zu sein als solche mit einem oder zwei 
Zuständen. 5 Aus diesen Gründen werden Modelle mit mehr als zwei Zuständen in empiri- 
schen Untersuchungen nur selten herangezogen 6 und in dieser Arbeit nicht systematisch un- 
tersucht. 

Außer den hier betrachteten Einzelgleichungsmodellen sind vereinzelt Mehrgleichungsmo- 
delle (vektorautoregressive Modelle) mit mehreren Zuständen in Betracht gezogen worden. 
Solche Modelle wurden bisher vorwiegend angewendet, um die wechselseitige Beeinflussung 
des Konjunkturverlaufs mehrerer Volkswirtschaften zu untersuchen. 7 



5 Es ist mit einigen Schwierigkeiten verbunden, die Anzahl der Zustände mit Hilfe von statistischen Tests zu 
ermitteln (vgl. Kapitel 6). 

6 Beispiele hierfür stellen Garcia und PERRON [1996] oder Sichel [1994] dar. 

7 Beispiele für bivariate (Marko v-)Modelle finden sich in Phillips [1991]. 




2 Regimewechselmodelle 



2.1 Modelle mit beobachtbaren Zuständen: Schwellenmodelle 



Die typischen Modelle mit beobachtbaren Zuständen sind Schwellenmodelle ( threshold 
models). Bei einem Schwellenmodell ändert sich der Zustand, wenn ein Zustandsindikator z t 
einen Schwellenwert über- oder unterschreitet. 8 Für ein Schwellenmodell mit zwei Zuständen 
und Schwellenwert c gilt also 

fW,a + X,/3, + u t , falls z t < c 
y ' ~ [W,a + X,ß 2 + «, , falls z, >c. 

Formuliert man die Modellgleichung folgendermaßen um: 
mit der Sprungfunktion 



D c (z t ) = 



1 , falls z t < c 
0 , falls z t > c ’ 



so erkennt man, daß man Schwellenmodelle als nichtlineare Regressionsmodelle mit unsteti- 
ger Regressionsfunktion und Heteroskedastie interpretieren kann. 

Typische Beispiele für Schwellenmodelle in ökonomischen Zusammenhängen resultieren 
aus makroökonomischen Verhaltensgleichungen, bei denen ein Teil der Parameter unter- 
schiedliche Werte je nach der momentanen Konjunkturphase annimmt, die sich danach be- 
stimmt, ob ein geeigneter Konjunkturindikator (etwa die Wachstumsrate des BIP) ober- oder 
unterhalb eines Schwellenwertes liegt. 

In manchen Fällen wird man den Schwellenwert c als bekannt ansehen (z.B. c = 0 für 
Wachstumsraten z t ). Dann kann man aus den Werten von z t bereits die Abfolge der Zustände 
ablesen. In anderen Situationen ist c unbekannt und muß aus den Daten geschätzt werden. 
Durch Vergleich des geschätzten Schwellenwertes mit den Werten von z t läßt sich dann die 
vermutete Aufteilung der Daten auf die Zustände angeben. 

Einen wichtigen Spezialfall erhält man für z t = /, wenn also die Schwellenvariable gleich 
dem Zeitindex ist. Dann liegt ein Strukturbruchmodell mit bekanntem (unbekanntem) Zeit- 
punkt des Strukturbruchs vor, falls c bekannt (unbekannt) ist. 

Von Goldfeld und Quandt [1972, 1973, 1976] stammen die ersten methodischen Arbei- 
ten über Schwellenmodelle mit exogenen Regressoren. Eine der ersten ökonomischen An- 
wendungen eines Schwellenmodells ist das Modell des US-amerikanischen Immobilien- 



8 Es können auch mehr als zwei Zustände und entsprechend mehrere Schwellenwerte vorliegen. Der Zustandsin- 
dikator z, kann auch eine Funktion (z.B. eine Linearkombination) mehrerer beobachteter Größen mit unbekann- 
ten Parametern sein. 
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marktes von Fair und Jaffee [1972], bei dem z t die Veränderungsrate eines zugehörigen 
Preisindexes darstellt. Schwellenmodellen ist seit den Arbeiten von Tong [1983, 1990] und 
anderen über Zeitreihen-Schwellenmodelle ( Threshold Autoregressive Models , TAR), bei 
denen die Variable z t ein Lag von y t ist (Self-Exciting Threshold Autoregressive Models , SE- 
TAR), neue Aufmerksamkeit zuteil geworden. 

Es sind auch andere Mechanismen denkbar, die bestimmen, wie ein Indikator z t Zustands- 
wechsel determiniert. Zum Beispiel kann es sein, daß niedrige Werte von z t Zustand 1 ent- 
sprechen und hohe Werte Zustand 2, daß aber der Schwellenwert c\, den der Zustandsindika- 
tor für einen Wechsel von Regime 1 in 2 wforschreiten muß, höher ist als der Schwellenwert 
C 2 , den der Zustandsindikator für einen Wechsel von Regime 2 in 1 «wterschreiten muß. Solch 
ein verallgemeinertes Schwellenmodell wäre z.B. angebracht, wenn die Zustände die allge- 
meine (optimistische oder pessimistische) Einschätzung der ökonomischen Lage beschreiben, 
die erst dann umschlägt, wenn ein wirtschaftlicher Indikator (etwa eine Wachstumsrate o.ä.) 
deutlich anwächst oder fallt, für moderate Werte des Indikators (zwischen den Schwellen- 
werten) aber unverändert bleibt. 

In diesem Fall kann es Vorkommen, daß selbst bei bekannten Schwellenwerten c\ und C 2 die 
Abfolge der Zustände nicht zweifelsfrei aus den Werten von z t abgelesen werden kann. Liegt 
nämlich der erste beobachtete Wert von z t zwischen den beiden Schwellenwerten, so sind die 
ersten Zustände unbestimmt. Die Zustände können erst von dem Zeitpunkt an mit Sicherheit 
angegeben werden, zu dem der Zustandsindikator zum ersten Mal den unteren Schwellenwert 
unter- oder den oberen Schwellenwert überschreitet. Sind die Schwellenwerte unbekannt, so 
ergibt sich wie im Falle gewöhnlicher Schwellenmodelle zusätzlich noch die Notwendigkeit, 
diese aus den Daten zu schätzen. 

Schon Goldfeld und Quandt [1973] schlugen vor, die in der obigen Formulierung eines 
Schwellenmodells verwendete Sprungfunktion durch eine stetige Funktion zu ersetzen, etwa 
die logistische Funktion. Solche Modelle mit „glattem Übergang“ erlauben ein Kontinuum 
von Zuständen zwischen zwei Extremen und haben in der letzten Zeit in der Zeitreihenform 
(Smooth Transition Autoregressive Models , STAR) wieder verstärktes Interesse gefunden. 9 



9 Zu STAR-Modellen vgl. z.B. Granger und Teräsvirta [1993], Teräsvirta [1994] und Teräsvirta, 
Tjostheim und Granger [1994]. 
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2 Regimewechselmodelle 



2.2 Modelle mit latenten Zuständen: Mischungs- und Markov-Modelle 

2.2.1 Homogene Modelle 

Hängen die Zustandswechsel selbst nicht direkt von einer beobachtbaren Größe ab, so bildet 
die Abfolge der Zustände einen latenten stochastischen Prozeß s n t = 1,...,7\ der die Vertei- 
lung der abhängigen Variable beeinflußt. Dabei sind verschiedene Varianten für die Dynamik 
von s t möglich. In den meisten Anwendungen wird angenommen, daß s t von den erklärenden 
Variablen unabhängig ist. Die entsprechenden Modelle werden als homogene Modelle be- 
zeichnet. 

Im einfachsten Fall sind die s t zeitlich unabhängig und identisch verteilt (d.h. stationär), 
bilden also eine Bernoullifolge . Diese Modelle, die als Mischungsmodelle 10 bezeichnet wer- 
den, verwenden im Falle zweier Zustände einen freien Parameter für den Zustandsprozeß, 
etwa p = P(s t = 1) . n 

Ein für Anwendungen in der Finanzmarktökonometrie wichtiger Fall ist der, in dem X 
(bzw. W) ein konstanter Spaltenvektor ist und W = 0 (bzw. X = 0 ) gilt. Hier entstammen die 
Werte von je nach Wert von s t einer von zwei Normalverteilungen mit unterschiedlichen 
Mittelwerten und/oder Fehlervarianzen, und die Verteilung von;;, stellt eine Mischung (i.i.d. 
mixture distribution ) aus diesen beiden Verteilungen dar. 12 

Solche Mischungsverteilungen können, je nachdem, welche Werte die bis zu 5 freien Pa- 
rameter annehmen, Schiefe, Platy- oder Leptokurtosis (d.h. positive oder negative Kurtosis 13 ) 
und auch Bimodalität aufweisen. Insbesondere Leptokurtosis ist ein gesichertes Charakteristi- 
kum der verschiedensten Arten von kurzfristigen Finanzmarktdaten (genauer gesagt: der 
logarithmischen Tages- und Wochenrenditen), das zuerst von Mandelbrot [1963] und Fama 
[1965] und in der Folgezeit von zahlreichen weiteren Autoren beschrieben und modelliert 
wurde. 14 Die empirischen Untersuchungen mit Hilfe von Mischungsverteilungen weisen dar- 
auf hin, daß sich die beiden Zustände für die Renditen deutlich in der Varianz unterschei- 



10 Gelegentlich findet sich hierfür im Deutschen auch die Bezeichnung Überlagerungen. 

11 Die erste Untersuchung dieser Verteilungen stammt von K. PEARSON [1894], der die Parameter von 
Mischungsverteilungen für verschiedene Größenmaße von Krebsen (u.a. Kopfgrößen und Zahnabstände) mit 
Hilfe der Methode der Momente schätzte. 

12 Zu Mischungsverteilungen vgl. Everitt und Hand [1981] und Titterington, Smith und Makov [1985]. 
Die entsprechenden Regressions- und Zeitreihenmodelle werden in der Literatur gelegentlich auch als simple 
switching models oder i.i.d.-switching models bezeichnet. 

13 In dieser Arbeit wird als Kurtosis das um 3 verminderte standardisierte 4. Moment einer Verteilung bezeich- 
net, d.h. die Kurtosis einer Normalverteilung ist 0. 
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den. 15 Die beobachtete Leptokurtosis scheint also dadurch zu entstehen, daß in den unter- 
suchten Stichproben Zeitpunkte mit geringer und mit hoher Volatilität gemischt sind. 16 

Die am häufigsten untersuchte Alternative zu Mischungsverteilungen stellen stabile 
(Pareto-)Verteilungen 17 dar, die jedoch keine endlichen Varianzen besitzen und bei Aggrega- 
tion nicht dem Zentralen Grenzwertsatz unterliegen. Dies widerspricht den empirischen Be- 
obachtungen: Zum einen werden die empirischen Varianzen bei wachsender Beobachtungs- 
größe nicht größer, zum anderen weisen die (durch Aggregation hervorgegangenen) längerfri- 
stigen (Monats-, Quartals-)Renditen geringere bis gar keine Leptokurtosis auf und streben in 
Verteilung gegen Normalverteilungen. In vergleichenden Untersuchungen der Anpassungs- 
güte dieser Modellklassen schneiden die Mischungsverteilungen gut ab. 18 Allerdings benöti- 
gen die hier meistens verwendeten Mischungsverteilungen mit gleichen Mittelwerten (soge- 
nannte scale mixtures ) mit 4 freien Parametern einen Parameter mehr als Paretoverteilungen. 

In vielen Fällen erscheint es nicht sinnvoll, die Zustände als unabhängig voneinander anzu- 
nehmen. Der einfachste stochastische Prozeß mit Autokorrelation und zwei (endlich vielen) 
Zuständen ist eine homogene Markov-Kette erster Ordnung , bei der die Verteilung der Varia- 
blen nur von dem zuletzt angenommenen Zustand, nicht aber von höheren Lags abhängt. 19 Ist 
die Markov-Kette s t stationär , so ist ihre Verteilung vollständig bestimmt durch die Über- 
gangswahrscheinlichkeiten 

p' j = P(s, = i | = j) . 

Es gilt p' 1 = 1 - p" und p n = 1 - p 2 ' , es bleiben also zwei freie Parameter für die Modellie- 
rung der Zustandsvariablen. Falls man auf die Stationaritätsannahme verzichtet und die Start- 
verteilung aus den Daten schätzt, so kommt noch ein freier Parameter, etwa p, = P(s 0 - 1) , 



14 Mischungsverteilungen in diesem Zusammenhang verwenden z.B. FIELITZ und ROZELLE [1983], PAN, CHAN 
und FOK [1995] oder HALL [1996]. 

15 Verallgemeinerungen auf mehr als zwei Zustände wären denkbar. Die Untersuchungen weisen jedoch darauf 
hin, daß zusätzliche Zustände den Erklärungsgehalt der Modelle nicht erhöhen, vgl. z.B. Kaehler und MARNET 
[1994], S. 209. 

16 Mischungsverteilungen mit gleichen Mittelwerten und unterschiedlichen Varianzen sind immer leptokurtisch. 
Evt. beobachtete Schiefe läßt sich mit unterschiedlichen Mittelwerten der beiden Verteilungen erklären. 

17 Vgl. z.B. und MlTTNlK und RACHEV [1993]. - Weitere in diesem Kontext verwendete Verteilungen sind 
Student-Verteilungen (vgl. z.B. Praetz [1972]), verallgemeinerte Student-Verteilungen (vgl. z.B. LYE, Martin 
und TEO [1998]) und hyperbolische Verteilungen (vgl. z.B. Eberlein und KELLER [1995] und Eberlein, 
Keller und Prause [1998]). 

18 Vgl. etwa KON [1984] und BOOTHE und Glassman [1987]. Diese Arbeiten weisen allerdings einige methodi- 
sche Unzulänglichkeiten auf, vgl. dazu Fußnote 150 auf S. 98. 

19 Ein Überblick über die wichtigsten für diese Arbeit relevanten Eigenschaften von Markov-Ketten wird im 
Anhang dieses Kapitels gegeben. 
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2 Regimewechselmodelle 



dazu. Die oben erwähnten Mischungsmodelle erhält man aus solchen Markov-Modellen , 
wenn p n = p 22 (und p x = p 11 ) gilt. 

Markov-Modelle haben eine lange Tradition in der Ökonometrie und sind für die Modellie- 
rung der verschiedensten Daten verwendet worden. Die ersten methodischen und empirischen 
Arbeiten in der Ökonometrie, die solche Ansätze verwenden, sind die von Goldfeld und 
Quandt [1972, 1973], in denen Markov-Modelle mit exogenen Regressoren betrachtet wer- 
den, die den US-amerikanischen Immobilienmarkt beschreiben. Hier stehen die beiden Zu- 
stände für einen „Käufermarkt“ und einen „Verkäufermarkt“. Marko v-Zeitreihenmodelle 
wurden erstmals von Hamilton [1988, 1989, 1993] systematisch untersucht, der Modelle für 
BSP-Zeitreihen vorstellte, in denen die beiden Zustände den expansiven und rezessiven Pha- 
sen des Konjunkturzyklusses entsprechen. Ein weiteres häufig zitiertes Modell ist das von 
Cosslett und Lee [1985] (mit exogenen Regressoren) für das Preissetzungsverhalten des 
US-amerikanischen Eisenbahnkartells von 1880 bis 1886, in dem die beiden Zustände abge- 
sprochenes und konkurrierendes Verhalten der Kartellmitglieder beschreiben. 20 Engel und 
Hamilton [1990] modellierten die wechselnden langfristigen Auf- und Abschwünge des 
Wechselkurses des Dollars gegenüber den Währungen westlicher Industrienationen mit Hilfe 
von Markov-Zeitreihenmodellen. Cecchetti, Lam und Mark [1990] untersuchten verschie- 
dene US-amerikanische makroökonomische Variablen, 21 Kaehler und Marnet [1994] 
Devisenkursrenditen mit Markov-Modellen ohne Regressoren. 

In empirischen Modellen für kurzfristige Kursrenditen unterscheiden sich die beiden Zu- 
stände wie bei den Mischungsverteilungen in aller Regel deutlich in der Volatilität, und die 
geschätzten Wahrscheinlichkeiten für das Verbleiben in den Zuständen (p n und p 22 ) sind 
relativ hoch, 22 die durchschnittliche Verweildauer in diesen Zuständen also dementsprechend 
lang. Diese Modelle beschreiben also die empirisch beobachtete Häufung von Perioden mit 
hoher bzw. niedriger Volatilität ( yolatility clustering) und stehen damit in Konkurrenz zu 
ARCH-Modellen und ihren Weiterentwicklungen. 23 

Dies ist nur ein kleiner Ausschnitt aus dem Spektrum von empirischen Anwendungen von 
Mischlings- und Markov-Modellen. In der ökonometrischen Literatur der letzten Jahre ist das 



20 Vgl. hierzu auch LEE und PORTER [1984]. 

21 Vgl. hierzu auch FERRI und Greenberg [1992] und Lahiri und Wang [1994]. 

22 Vgl. z.B. Kaehler und Marnet [1994], S. 214 ff. Für die dort untersuchten Tages- und Wochenrenditen von 
vier Wechselkursen sind diese Wahrscheinlichkeiten durchgängig größer als 0,89. 

23 Vgl. z.B. Bollerslev, Chou und Kroner [1992] oder Bollerslev, Engle und Nelson [1994]. 
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Interesse an ihnen unvermindert, und die Zahl der ökonomischen Anwendungen ist mittler- 
weile kaum noch zu überschauen. 

Für manche empirische Anwendung wäre es denkbar, Modelle mit Markov-Ketten höherer 
Ordnung (also das diskrete Gegenstück zu AR(p)-Modellen) zu verwenden, bei denen die 
Verteilung der Zustände von den letzten p Zuständen abhängt (p > 1 ). Damit könnte man z.B. 
die plausible Annahme überprüfen, daß die Wahrscheinlichkeit für das Verbleiben auf einem 
Wachstumspfad höher ist, wenn die letzten p Perioden schon expansiv waren, als wenn nur 
die letzte Periode Anzeichen eines Aufschwungs zeigt, die Perioden davor aber rezessiv wa- 
ren. Solche Modelle spielen trotz ihrer interessanten theoretischen Eigenschaften in der Lite- 
ratur bisher keine nennenswerte Rolle, da sie deutlich mehr freie Parameter benötigen als 
Modelle mit Markov-Ketten erster Ordnung. 24 



2.2.2 Inhomogene Modelle 

Schon Goldfeld und Quandt [1973] schlugen Modelle vor, in denen die Aufenthaltswahr- 
scheinlichkeit p bzw. die Übergangswahrscheinlichkeiten p/ j von einer beobachteten Größe z t 
funktional abhängen. In diesen Modellen sind die Zustände also latent, der Regimeindikator z t 
enthält aber eine gewisse Information über den jeweils herrschenden Zustand. Solche Modelle 
werden als inhomogene Mischlings- bzw. Markov-Modelle bezeichnet. 25 

Es sind verschiedene Formen der Abhängigkeit der Aufenthaltswahrscheinlichkeit p bzw. 
der Übergangswahrscheinlichkeiten p iJ von z t denkbar. In empirischen Anwendungen werden 
fast ausschließlich monotone Funktionen in Erwägung gezogen, die für kleine Werte von z t 
gegen 0 und für große Werte gegen 1 streben (oder umgekehrt). 26 Beispiele für diesen Funkti- 
onstyp sind Verteilungsfunktionen unimodaler Wahrscheinlichkeitsdichten, etwa der Stan- 
dardnormalverteilung, oder die logistische Funktion 

p y(*,-c) 

/(*,) = : 



\ + e Yi2 '- c) ' 

Der Parameter c ist der “Umschlagpunkt”, an dem / den stärksten Anstieg aufweist. Die Stär- 
ke der Abhängigkeit der Aufenthalts- bzw. der Übergangswahrscheinlichkeiten von z t be- 
schreibt der Parameter y. Inhomogene Mischungsmodelle von diesem Typ verwenden dem- 



24 Man kann eine Markov-Kette höherer Ordnung auffassen als eine Markov-Kette erster Ordnung mit passend 
vergrößertem Zustandsraum. Deswegen sind die in diesen Modellen zusätzlich auftretenden methodischen 
Schwierigkeiten dieselben wie für Markov-Modelle mit mehr als zwei Zuständen, vgl. z.B. Friedmann [1994]. 

25 Vgl. zur Bezeichnung den Anhang zu diesem Kapitel. 

26 Andere denkbare Funktionstypen wären spiegelsymmetrische, die filr weit von c entfernte Werte von z, klein 
und in der Nähe von c groß sind (oder umgekehrt), etwa fix) = l/(l-(x-c) 2 ). 
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nach die beiden Parameter c und y zur Modellierung des Zustandsprozesses s t . Für inhomoge- 
ne Markov-Modelle wären z.B. p n und p 22 logistische Funktionen mit den freien Parametern 
cu C 2 , 7i und y 2 . 




Csrnma * 0.1 — - — Gvrunt ■ 1,0 

Gamm# ■ 0, J — - * 5,0 



Abbildung 1: Logistische Funktion mit verschiedenen Werten für y und c = 0. 

Bei Mischungsmodellen mit solchen Aufenthaltswahrscheinlichkeiten ist also Zustand 1 für 
(im Vergleich zu c ) sehr kleine Werte von z t nahezu unmöglich und für sehr große Werte von 
z t fast sicher. Für Werte in der Nähe von c ist die stochastische Komponente des Modells aus- 
geprägt. Hier kann der Zustand nicht mit Sicherheit angegeben werden, etwa aufgrund weite- 
rer, nicht im Modell enthaltener Einflußgrößen. Analog lassen sich die Übergangswahr- 
scheinlichkeiten für inhomogene Markov-Modelle interpretieren. 

Für sehr große Werte von y konvergiert die logistische Funktion (von dem Wert c selbst 
abgesehen) punktweise gegen eine Stufen-(oder Treppen-)Funktion mit einer Unstetigkeits- 
stelle bei c (vgl. Abbildung 1). Gibt diese logistische Funktion die Aufenthaltswahrschein- 
lichkeit in Zustand 1 eines inhomogenen Mischungsmodells an, so kann man im Grenzfall 
den herrschenden Zustand mit Sicherheit angeben - es liegt ein Schwellenmodell mit 
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Schwellenwert c vor. Schwellenmodelle sind also Spezialfälle inhomogener Mischlings- (und 
damit auch Marko v-)Modelle. 

Weitere interessante Spezialfalle inhomogener Markov-Modelle erhält man, wenn man Stu- 
fenfunktionen mit den Sprungstellen c\ und cj für die beiden Übergangswahrscheinlichkeiten 
(etwa p n und p 22 ) wählt. In diesem Fall kann man die Zustandswechsel mit Sicherheit ange- 
ben. Es sind, je nach Lage der Sprungwerte und der Richtung des Sprunges (von 0 auf 1 oder 
umgekehrt), verschiedene Konstellationen möglich. Ein interessanter Fall ist der mit dem in 
Abbildung 2 dargestellten Verlauf der Übergangswahrscheinlichkeiten. 




1.00 
O.TS 

o.sa 

0.25 
0.00 

Abbildung 2: Ein Beispiel mit Sprungfunktionen als Übergangswahrscheinlichkeiten p u {z,) (oben) und p 22 (z,) 
(unten) 

Solange der Wert des Indikators zwischen den beiden Schwellenwerten liegt, haben sowohl 
p n als auch p 22 den Wert 1, der jeweilige Zustand (sei es nun Zustand 1 oder 2) ändert sich 
also nicht. Für Indikatorwerte unterhalb des unteren Schwellenwertes bleibt Zustand 1, und 
Zustand 2 wechselt zu 1; umgekehrtes gilt für Indikatorwerte oberhalb des oberen Schwel- 
lenwertes. Es liegt also gerade ein verallgemeinertes Schwellenmodell vor, wie es in Kapitel 
2.1 beschrieben wurde. 
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Auch homogene Markov- und Mischungsmodelle lassen sich natürlich als Spezialfälle aus 
inhomogenen Modellen zurückgewinnen. Dafür ist eine andere Parametrisierung der logisti- 
schen Funktion vorteilhaft, z.B. für Mischungsmodelle: 

e s+rz ‘ 

Ist hier y = 0, so liegt ein homogenes Mischungsmodell mit p = e 5 /(\ + e 5 ) vor. Entspre- 
chendes gilt für Markov-Modelle mit j\ = 0 und 72 = 0. 

Lee [1991] und Diebold, Lee und Weinbach [1994] haben solche inhomogenen Modelle 
im Gefolge der Renaissance von Markov-Modellen in den 90er Jahren wieder aufgegriffen 
und wichtige methodische Aspekte dieser Modelle behandelt. In Filardo [1994] werden Mo- 
delle, in denen y den US-amerikanischen Produktionsindex darstellt und z t verschiedene 
Konjunkturindikatoren, betrachtet, um so die Prognosekraft dieser Indikatoren zu vergleichen. 
Hier gilt das Hauptaugenmerk der Tatsache, daß diese Modelle die empirisch beobachteten 
zeitlich variierenden Verweildauern in den konjunkturellen Phasen (Zuständen) erklären kön- 
nen (im Gegensatz zu gewöhnlichen Markov-Modellen, bei denen im stationären Fall die er- 
wartete Verweildauer eines Zustandes konstant ist ). 27 In Ghysels [1993] wird anhand eines 
Modells, in dem z t die Saison (die Quartalsnummer) darstellt, untersucht, ob Wechsel zwi- 
schen konjunkturellen Phasen bevorzugt in bestimmten Jahreszeiten stattfinden. In Durland 
und McCurdy [1994] wird ein Modell vorgeschlagen, in dem z t die Verweildauer in dem 
jeweiligen Zustand darstellt. Damit wird untersucht, ob die Wahrscheinlichkeit für das Ein- 
treten einer Rezession mit zunehmender Dauer einer Aufschwungphase zunimmt (und umge- 
kehrt). 



2.3 Systematik der Modelltypen 

Die Diskussion Kapitel 2.2 hat gezeigt, daß sich alle vorher erwähnten Regimewechselmo- 
delle als Spezialfalle von inhomogenen Markov-Modellen ansehen lassen. Einen Überblick 
über die wichtigsten Zusammenhänge zwischen den verschiedenen Modelltypen gibt 
Abbildung 3, in der Parameterrestriktionen durch Pfeile angedeutet werden. 



27 Vgl. hierzu den Anhang zu diesem Kapitel. 
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Abbildung 3: Systematik der Regimewechselmodelle. Zahlen in eckigen Klammern geben die Anzahl der freien 
Parameter des Zustandsprozesses s, an. 



2.4 Weitere Modelle mit veränderlichen Parametern 

Außer Regimewechselmodellen sind in der ökonometrischen Literatur noch verschiedene 
weitere Modelltypen untersucht worden, die es ermöglichen, Parametervariation zu erkennen 
und zu modellieren. 

Ein Überblick über die am weitesten verbreiteten Modellklassen findet sich z.B. in Judge 
u.a. [1985], S. 798, oder in Pfaff [1998], S. 37, wo die in dieser Arbeit untersuchten Regi- 
mewechselmodelle als Modelle mit diskreter Koeffizientenvariation bzw. als switching 
regression models bezeichnet werden. Regimewechselmodelle werden in diesen Klassifika- 
tionen zu den Modellen mit systematischer Koeffizientenvariation (varying but nonstochastic 
Parameters) gezählt, was im Falle von Mischlings- und Marko v-Modellen nicht ganz korrekt 
ist, da hier die Koeffizienten durchaus stochastisch variieren. 28 Schwellenmodelle, deren 

28 Unter den Modellen mit stochastischer KoefFizientenvariation wird üblicherweise noch unterschieden zwi- 
schen denen, deren Koeffizienten einem stationären Prozeß entstammt, und denen, deren Koeffizientenprozeß 
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Schwellenindikator verzögert endogen oder exogen und stochastisch ist, weisen ebenfalls sto- 
chastische Koeffizientenvariation auf. 

Regimewechselmodelle decken also die ganze Palette der denkbaren Formen von Koeffizi- 
entenvariation ab. Was sie unter den Modellen mit veränderlichen Parametern auszeichnet, ist 
die Tatsache, daß die Parameter nur endlich vieler Werte fähig sind. Im Gegensatz dazu kön- 
nen die Parameter bei den sonstigen Modellen mit veränderlichen Parametern, den kontinu- 
ierlichen Modellen, theoretisch alle Werte annehmen. 

Es ist instruktiv, die hier behandelten Regimewechselmodelle als Spezialfälle bekannter 
Modelle mit kontinuierlich variierenden Parametern aufzufassen. Dies wird im folgenden an 
zwei wichtigen Klassen demonstriert, den Modellen mit variablen Parametern im Sinne von 
Raj und Ullah [1981] und Lüdeke, Hummel und Rüdel [1989] sowie den Zustandsraum- 
modellen. 



2.4.1 Regimewechselmodelle als Modelle mit variablen Parametern 

Aufbauend auf Hildreth und Houck [1968] und Raj und Ullah [1981] wird in Lüdeke, 
Hummel und Rüdel [1989] folgendes Modell vorgeschlagen: 29 
y, = W,a + \,ß,+ u, 
mit y t , W ,, X ( , a und u, wie oben 30 und 

ß,=Z,Y+s, . 



Die Matrix Z, enthält die systematischen Bestimmungsgrößen von ß t , 



Z, = 



*1 *1 
0-0 



0-0 



0-0 



^ 2 , 1 , t 



*2 ,n 2 ,t 



0-0 

0-0 



0-0 



*L,ljt * L,n L ,t ) 

und y ist ein entsprechend dimensionierter Spaltenvektor. Dies ist ein Schwellenmodell mit 
Schwellenvariable z t und Schwellenwert c, falls die Bestimmungsgrößen von ß t geeignete 
Dummy- Variablen darstellen und die stochastische Komponente von ß t nicht existiert, d.h. 
falls 



n i = n 2 = ... = n L = 2 , 

Z /.U = ö c(z,) und z ,.i, = •- ArOO Jur i = \,...,L , 31 



instationär ist. Homogene Mischungsmodelle und homogene, stationäre Markov-Modelle gehören zu den erste- 
ren, die übrigen Mischungs- und Markov-Modelle zu den letzteren (vgl. den Anhang zu diesem Kapitel). 

29 Die Notation wurde leicht der hier verwendeten angepaßt. 
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7 ~ (P 1,1 » ß 2,1 > ß 1,2» ß ß 1,L> ß 2,l) 

und e, = 0 , / = l,...,r . 

Wenn andererseits die systematische Komponente der Koeffizienten entfallt (d.h. Z, = 0 ) und 
s t nicht normalverteilt ist (wie es in LÜDEKE, Hummel und RÜDEL [1989] angenommen 
wird), sondern nur der beiden Werte ß i und ß 2 fähig ist, d.h. 

e t = ß Si , r = i,...,r , 

wobei s t eine Bemoullifolge bzw. eine Markov-Kette wie in Kapitel 2.2.1 ist, so liegt ein 
Mischlings- bzw. Markov-Modell vor. 

2.4.2 Homogene Markov-Modelle als Zustandsraummodelle 

Sei ej =(1,0)', e 2 =(0,1)' und <*, =e, r . Dann gilt 
E(?; t ) = (P(s t =\lP(s t =2)y , 

E(Us t =0 = (P U >P 2i y , 

und allgemeiner £(£, +1 1 = P<?, 

mit der Übergangsmatrix 

p=(p“)= 

Aus den Eigenschaften der bedingten Erwartung folgt deswegen 

«, +1 =P«,+v, +1 . 

wobei v,+i unkorreliert mit ist, und ebenso mit den entsprechenden exogenen Größen, 

falls die Markov-Kette als unabhängig von ihnen angenommen wird. 32 

In dieser Form stellt die dynamische Spezifikation der Markov-Kette die Zustandsglei- 
chung eines linearen Zustandsraummodells dar. 33 Die Beobachtungsgleichung erhält man, 
wenn man die Regressionsbeziehung in der Form 
y t =Vr t a + XflS t +u t 




30 Die Variable u, ist in LÜDEKE, HUMMEL und RÜDEL [1989] homoskedastisch. 

31 D c ist die in Kapitel 2. 1 eingeführte Stufenfunktion mit Sprung bei c. 

32 Dies ist eine übliche und sinnvolle Annahme für s,. Die stochastischen Spezifikationen des Modells werden in 
Kapitel 4.1 präzisiert. 

33 Vg. hierzu HAMILTON [1994a], S. 3062 ff., oder KROLZIG [1997], S. 29 ff. 
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mit B = (ß u ß 2 ) darstellt. Formal stellt ein Markov-Modell damit ein Zustandsraummodell 

dar, aber mit der Besonderheit, daß der Störterm v, nicht normalverteilt ist, sondern nur vier 
Werte annehmen kann. Deswegen sind die für Zustandsraummodelle (mit normalverteilten 
Störtermen) entwickelten Methoden auch nicht ohne weiteres auf Markov-Modelle übertrag- 
bar. Diese Verwandtschaft zwischen den Modellen erklärt jedoch viele Ähnlichkeiten zwi- 
schen den jeweiligen Analyseverfahren, insbesondere die Analogie zwischen dem Kalman- 
Filter und dem Filter zur Bestimmung der sogenannten geglätteten Wahrscheinlichkeiten , die 
Rückschlüsse auf die unbeobachteten Zustände eines Markov-Modells gestatten. 34 



Anhang: Markov-Ketten 

In diesem Abschnitt werden die Eigenschaften von Markov-Ketten behandelt, die für die 
späteren Ausführungen benötigt werden. 35 

Ein stochastischer Prozeß s t mit Zustandsraum {1,2, 3,...} heißt Markov-Kette der Ordnung 
p, wenn er die folgende Markov ' sehe Eigenschaft besitzt: 

Für alle t, m e Imit m >pund s t _ 2 ,..., s ( _ p ) > 0 gilt 

P(s t \ 5 f _i, 5 f _ 2 ,..., s t _ m ) = P(s t \s t _ v s,_ 2 ,..., s t _ p ) . 

Die Verteilung von s t hängt also nur von den letzten p Realisationen des stochastischen Pro- 
zesses ab. Wenn im folgenden von Markov-Ketten (schlechthin) die Rede ist, so sind damit 
immer Markov-Ketten erster Ordnung gemeint. Für eine Markov-Kette s t gilt demnach 
Viv, s t _ m ) = P(s t \ Vi) 

für jedes m > 1. Die Dynamik von Markov-Ketten mit endlichem Zustandsraum {1,2, ..., n} 
wird also von den n 2 Übergangswahrscheinlichkeiten 
= P(s t =i\s t _ l =j ) , \<i,j <n 



bestimmt, 36 wobei ^pf = 1 für y = 1,..., n gilt. Die Obergangswahrscheinlichkeiten bilden 
;=1 

die Übergangsmatrix 



r,=(p?) = 



Pt 



\Pt 






Pt 



PT) 



34 Vgl. hierzu Kapitel 4.3.2. 1 (insbesondere S. 56) und Anhang A zu Kapitel 4. 

35 Vgl. hierzu z.B. Karlin und Taylor [1975] oder Hamilton [1994b], Kap. 22.2. 

36 Einige Autoren verwenden die Konvention p> j = P(s, -j \ s,.i = /)• 
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Aus der Markov’ sehen Eigenschaft erhält man für 1 < /, k < n 

P(s, = i\S '_ 2 =k) = £/>(,, = = j)P(s,. l = j[s,_ 2 = k) = (P,P,.,) jt ■ 

y=i 

Daraus resultiert durch wiederholte Anwendung die sogenannte Chapman-Kolmogorov- 
Gleichung 

P(5,=i|S,. r = fc) = (P,P,. 1 -P,. r+ ,) (i . 



Ist rt = 2, so gilt 



P, = 



Pt Pt 

21 2: 

Pt Pt 



' „11 i „22\ 

Pt l ~Pt 

i „11 „22 I » 

\~Pt Pt ) 



wenn man p) x und p 22 als freie Parameter verwendet. 

Die Markov-Kette heißt homogen oder Kette mit stationären Übergangswahrscheinlich- 
keiten, falls P / unabhängig von t ist. Für n = 2 gilt dann 



P,sP = 



„11 1 „22 
P 1 ~P 



Eine Markov-Kette heißt stationär, falls die unbedingten Verteilungen der s t zeitlich konstant 
sind, d.h. 

P(s t = i ) s % i für alle t. 

Für eine homogene, stationäre Markov-Kette gilt 

n, = P(s, = 0 = £p(j, = i|s,_i = j)P(s,_, = j) = > 

7 = 1.2 7 — 1 »2 

d.h. n = Ptt 



mit n= Der Vektor der unbedingten Verteilung von s t ist also ein Eigenvektor der 

Übergangsmatrix zum Eigenwert 1 . Für n = 2 lauten die Komponenten dieses Eigenvektors 
(der durch die Normierung K\ + ni = 1 festgelegt ist) 

„ 1 -P 22 „ 1 -P U 



o-yvo-/* 22 ) 



■,7t 2 = l~7t l = 



(i- P ")-(l-/ 2 ) 



Diese Größen werden auch als unbedingte Wahrscheinlichkeiten für die beiden Zustände be- 
zeichnet. 

Die Verteilung einer inhomogenen Markov-Kette s t mit t = 1,2,... ist für n = 2 vollständig 
spezifiziert durch die Übergangswahrscheinlichkeiten p t n und p 22 sowie die Startwahr- 
scheinlichkeit p 1 = P(s x = 1) . Ist die Markov-Kette homogen, so wird sie durch die drei 
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Parameter p u , p 22 und p 1 charakterisiert: Es gilt dann aufgrund der Chapman-Kolmogorov- 
Gleichung für t = 2,3,... 



P(5,=2)J ' - il-p' 



bzw. im Falle einer homogenen Kette 



^ =l )l_ P 4 p 

P{s,=2)) U-p 1 



Ist s t stationär, so gilt zusätzlich die Restriktion 

1 -p 22 



P =n i = 



1 (1 * 



Die Verteilung der Marko v-Kette wird in diesem Fall von zwei freien Parametern beschrie- 
ben. 

Die unbedingten Wahrscheinlichkeiten stellen die Verteilung (fast) jeder Markov-Kette für 
große t dar, auch wenn sie nicht strikt stationär ist, etwa weil die Startwahrscheinlichkeiten 
nicht die unbedingten Wahrscheinlichkeiten sind. Genauer: Sind alle Übergangswahrschein- 
lichkeiten p iJ positiv, so konvergieren die /-Schritt-Übergangswahrscheinlichkeiten (P% für 
wachsende t exponentiell gegen die unbedingten Wahrscheinlichkeiten 7 r,. Da diese nicht von 
j abhängen, stellen sie also die Wahrscheinlichkeiten für die Zustände für große t dar. 

Ein wichtiger Spezialfall liegt vor, wenn p, 11 = p, 12 für t = 2, 3,... gilt, also p) x = 1- p 22 . 
Dann gilt auch p 22 = p 21 , und das bedeutet 

P{s t \s tA ) = P{s t ) . 

In diesem Fall sind die einzelnen Realisationen der Markov-Kette unabhängig bemoulliver- 
teilt mit Parameter p t =p, n . Ist s t homogen, so gilt p t =p n , und der Prozeß s t bildet eine Ber- 
noullifolge mit dem Parameter p =p n . 

Gilt s t = 1 , so ist die Wahrscheinlichkeit dafür, daß die Kette noch genau n - 1 (also insge- 
samt n) Zeitpunkte in diesem Zustand verbleibt, gleich (p n )" _1 (l -p 11 ) . Die Verweildauer in 
diesem Zustand ist also geometrisch verteilt mit Erwartungswert l/(l - p 11 ) . 




21 



3 Wechselkurse im Europäischen Währungssystem 

Die Wechselkurse im Europäischen Währungssystem (EWS) wurden maßgeblich durch die 
institutioneilen Rahmenbedingungen des EWS bestimmt. Für die Modellierung dieser Wech- 
selkurse ist deshalb eine Analyse der Funktionsweise des EWS erforderlich, die sich in Kapi- 
tel 3.1 zusammen mit einem kurzen Abriß der historischen Entwicklung des EWS und einem 
Ausblick auf das Nachfolgesystem des EWS nach Inkrafttreten der Europäischen Währungs- 
union (EWU) findet. In Kapitel 3.2 werden die theoretischen Grundlagen von Wechselkurs- 
modellen dargestellt. In Kapitel 3.3 schließlich wird der in dieser Arbeit verwendete Ansatz 
der Modellierung von Wechselkursdaten mit Hilfe von Regimewechselmodellen erläutert. 



3.1 Das Europäische Währungssystem 

3.1.1 Geschichtlicher Hintergrund und Entstehung des EWS 

Nach dem endgültigen Zusammenbruch des Bretton-Woods-Systems 1973 unternahmen die 
europäischen Zentralbanken und Regierungen bald die ersten Versuche, wenigstens innerhalb 
Europas ein gewisses Maß an Wechselkursstabilität zu garantieren. 37 Diesen frühen, unter der 
Bezeichnung „Europäische Währungsschlange“ bekannten Initiativen war durchweg wenig 
Erfolg beschieden. Die festgelegten Paritäten mußten regelmäßig nach einigen Monaten wie- 
der aufgegeben werden, so daß sie nie wirklich das Vertrauen der Märkte genossen. Dennoch 
wurde das Ziel fester Wechselkurse vor allem innerhalb der Europäischen Union (EU, damals 
Europäische Gemeinschaft, EG) von den verantwortlichen Regierungs- und Zentralbankpoli- 
tikem als grundlegend für die ökonomische Integration und insbesondere für das Funktionie- 
ren des gemeinsamen Agrarmarktes 38 angesehen, so daß weiterhin Möglichkeiten für die 
Wiederherstellung eines höheren Maßes an Wechselkursstabilität erörtert wurden. 

Als Hauptgrund für das Scheitern der Währungsschlange kristallisierte sich das Fehlen von 
verbindlichen, institutionalisierten Interventionsregeln der Zentralbanken heraus. Auf Tagun- 
gen in Kopenhagen und Bremen beschloß der Europäische Rat im Jahr 1978 die Grundzüge 
einer neuen Währungsordnung mit solchen Interventionsverpflichtungen, so daß am 13. März 



37 Vgl. hierzu und zu den weiteren Ausführungen über Funktionsweise und ökonomischer Bedeutung des EWS 
z.B. Giavazzi, Micossi und Miller [1988] sowie Giavazzi und Giovannini [1989]. 

38 Vgl. hierzu Giavazzi und Giovannini [1989], S. 12 ff. 
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1979 das EWS unter Teilnahme von Belgien, Dänemark, der Bundesrepublik Deutschland, 
Frankreich, Irland, Italien, Luxemburg und den Niederlanden in Kraft treten konnte. 39 

3.1.2 Die Funktionsweise des EWS 
3.1.2.1 Der ECU und das Paritätengitter 

Den ersten Schritt in der Konstruktion des EWS stellte die Einführung der Europäischen 
Währungseinheit {European Currency Unit , ECU) dar. 40 Der ECU war eine Korbwährung, 
zusammengesetzt aus einer festen Anzahl von Währungseinheiten aller EU-Währungen. 
Diese Festlegung führte zum einen dazu, daß die EWS-Teilnehmerstaaten nicht identisch mit 
den im ECU repräsentierten Währungen waren, und zum anderen dazu, daß sich die Gewichte 
der einzelnen Währungen im ECU, die ursprünglich auf der Höhe der Bruttosozialprodukte 
der einzelnen Länder basierten, im Laufe der Zeit infolge von Wechselkursveränderungen 
mitunter erheblich veränderten. Zudem wurde die Zusammensetzung des ECU in den Jahren 
1984 und 1989 verändert. 

Die wichtigsten Funktionen des ECU waren: 

• Er diente als Reservemedium und als Recheneinheit zum Saldenausgleich zwischen den 
EWS-Zentralbanken, ähnlich wie das Sonderziehungsrecht beim Internationalen Wäh- 
rungsfonds. 

• Er stellte die Basiseinheit der ECU-Leitkurse dar. 

Diese von den Zentralbanken festgelegten ECU-Leitkurse , ausgedrückt in den Preisen eines 
ECU in den nationalen Währungen, waren das Kernstück des EWS. Die Quotienten der ECU- 
Leitkurse bildeten die bilateralen Leitkurse der jeweiligen Staaten und stellten zusammen das 
Paritätengitter dar. 

Ursprünglich sollte der ECU eine ähnlich zentrale Rolle im EWS einnehmen wie der Dollar 
im Bretton-Woods-System. Dieser Standpunkt wurde in der Frühzeit des EWS besonders von 
Frankreich vertreten. Tatsächlich setzte sich aber, wie im folgenden Kapitel erläutert wird, die 
Bundesbank mit ihrer Forderung durch, den Interventionsmechanismus an das Paritätengitter 
zu binden, wodurch der ECU vorwiegend zu einer Rechengröße der Zentralbanken entwertet 
wurde. Dabei mag auch eine Rolle gespielt haben, daß der ECU aufgrund seiner oben erläu- 



39 Aufbau, Arbeitsweise und Entwicklung des EWS werden in den Monatsberichten der Bundesbank vom März 
1979, November 1989, Oktober 1992 und August 1993 detailliert erläutert. 

40 „ECU“ ist nicht nur die oben erläuterte Abkürzung, sondern auch der Name einer alten französischen Gold- 
münze, wodurch sich die übliche (französische) Aussprache erklärt. 
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terten Konstruktion teilweise komplizierte Umrechnungsverfahren nötig machte, was ihn für 
praktische Zwecke ungeeignet erscheinen ließ. 41 

3.1.2.2 Der Interventionsmechanismus 

Wie bereits erwähnt hatte Frankreich gefordert, den Interventionsmechanismus an Abwei- 
chungen der einzelnen Währungen vom ECU auszurichten. Dies scheiterte aber vorwiegend 
am Widerstand der Bundesbank, die befürchtete, aufgrund der erwarteten Stärke der DM im 
EWS zu häufig zu einseitigen Interventionen gezwungen zu werden, was zu einer uner- 
wünschten Ausweitung der (DM-)Geldmenge und damit zu einer Gefährdung der Stabilität 
der DM hätte führen können. Statt dessen setzte sie sich mit ihrem Vorschlag durch, die Inter- 
ventionsverpflichtungen an das bilaterale Paritätengitter zu koppeln, so daß wenigstens immer 
eine zweite Zentralbank zu entgegengesetzten Interventionen verpflichtet war. 

Der Interventionsmechanismus sah vor, daß sich die beteiligten Zentralbanken verpflichte- 
ten, durch Interventionen auf den Devisenmärkten die bilateralen Wechselkurse in einem 
festen Band um die bilateralen Leitkurse zu halten. Die Ober- und Untergrenze dieses Bandes 
lagen anfangs für die meisten Währungen 2,25 % ober- bzw. unterhalb der bilateralen Leit- 
kurse, so daß die Bandbreite 4,5 % betrug. Ausnahmen stellten die italienische Lira und später 
die spanische Peseta sowie der portugiesische Escudo mit Bandbreiten von 12 % dar. Am 2. 
August 1993 wurden diese Bandbreiten aufgrund des anhaltenden spekulativen Drucks auf 
den Devisenmärkten nach der „Krise des EWS“ (vgl. Kapitel 3. 1.2.4) auf 30 % erhöht, mit 
Ausnahme der DM und des Gulden, für die aufgrund einer bilateralen Übereinkunft eine 
Bandbreite von 4,5 % beibehalten wurde. 

Sobald der Wechselkurs zweier beteiligter Länder eine dieser Grenzen erreichte, waren 
beide Zentralbanken verpflichtet, die jeweils schwächere Währung zu kaufen und die stärkere 
zu verkaufen, und zwar in unbeschränktem Umfang. Um der Zentralbank der schwächeren 
Währung diese Interventionen zu ermöglichen, war die Zentralbank der stärkeren Währung 
verpflichtet, ihr unbegrenzten Kredit zu gewähren. Dieser Kreditmechanismus und die zuge- 
hörige Verzinsung wurde in den verschiedenen Formen der finanziellen Beistandsmechanis- 
men genau festgelegt. 42 

Außer diesen sogenannten marginalen Interventionen spielten die intramarginalen Inter- 
ventionen eine wesentliche Rolle, also Eingriffe der beteiligten Zentralbanken in die Devi- 
senmärkte, bevor die betroffenen Währungen eine der Grenzen der Wechselkursbänder er- 

41 Vgl. hierzu z.B. Giavazzi und Giovannini [1989], S. 35 f. 

42 Vgl. hierzu den Monatsbericht der Bundesbank vom März 1979, S. 15 ff. 
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reichten. Für solche Interventionen, die der Zustimmung der jeweils anderen Zentralbank be- 
durften, war jedoch kein Kreditmechanismus vorgesehen. Die beteiligten Zentralbanken en- 
gagierten sich in unterschiedlichem Ausmaß in intramarginalen Interventionen: Während z.B. 
die Banque de France eine sehr aktive Rolle in diesem Zusammenhang einnahm, beteiligte 
sich die Bundesbank prinzipiell nicht an solchen Eingriffen . 43 

3. 1.2.3 Das Verfahren zur Neufestlegung der Paritäten 

Obwohl mit den unbegrenzten Interventionsverpflichtungen der beteiligten Zentralbanken das 
größtmögliche Vertrauen der Märkte in die Leitkurse sichergestellt werden sollte, waren 
Realignments , also Veränderungen der Leitkurse, von Anfang an vorgesehen und wurden 
auch von Zeit zu Zeit nötig. Der Hauptgrund dafür waren die zum Teil erheblich von einander 
abweichenden Inflationsraten in den Teilnehmerländern und der mit diesem Abweichen von 
dem durch die Kaufkraftparitätentheorie vorgegebenen Gleichgewichtspfad 44 einhergehende 
Ab- bzw. Aufwertungsdruck auf die schwächere bzw. die stärkere Währung auf den Devi- 
senmärkten. 

Wichtigstes Merkmal des zugehörigen Verfahrens war die Notwendigkeit der Zustimmung 
aller beteiligten Länder zu neuen Paritäten. Dies stellte einen Hauptunterschied zum System 
von Bretton-Woods und zur Währungsschlange dar, in denen Realignments letztlich einseitige 
Entscheidungen des jeweiligen Landes darstellten. Nach erfolgter Zustimmung traten die neu- 
en Leitkurse ohne Vorankündigung sofort in Kraft. 

3.1.2.4 Die Entwicklung des EWS von 1979 bis zur EWU 

Obwohl in der Konstruktion des EWS bewußt die Bezugnahme auf eine (echte) Leitwährung 
vermieden worden war, entwickelte sich die DM im Verlaufe des Bestehens des EWS zur 
Ankerwährung und nahm zeitweise eine ähnliche Stellung ein wie der Dollar im Bretton- 
Woods-System. Dies zeigte sich vor allem daran, daß Interventionen vorwiegend dann nötig 
wurden, wenn verschiedene Währungen ihr Wechselkursband zur DM zu verlassen drohten, 
woraus in der Regel auch die Notwendigkeit von Realignments erwuchs. Faktisch entschied 
die Bundesbank aus stabilitätsorientierten Überlegungen über ihre Geldpolitik; die übrigen 
Mitgliedsstaaten hatten die Wahl, entweder diesem Kurs in ihrer Geldpolitik zu folgen, wie es 
vorwiegend in der jüngeren Zeit der Fall gewesen zu sein scheint, oder ihre Währungen ge- 
genüber der DM abzuwerten, wie es in der ersten Zeit des EWS regelmäßig vorkam. 

43 Vgl. Giavazzi und Giovannini [1989], S. 65. 

44 Vgl. hierzu Kapitel 3.2. 1.1. 
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Realignments hatten unterschiedliche Ausmaße, von der Veränderung eines einzelnen 
bilateralen Leitkurses (wie z.B. der Abwertung der Dänischen Krone im November 1979) bis 
zur kompletten Umgestaltung des Paritätengitters (wie z.B. dem Realignment vom Oktober 
1981). Insgesamt läßt sich die Dauer des EWS in vier Phasen einteilen: 

• die ersten Jahre bis zur Konsolidierung des EWS etwa März 1983, mit relativ vielen Rea- 
lignments (insgesamt 7) 

• die vergleichsweise ruhige Phase bis Mitte 1992, in der nur 3 Realignments nötig waren 
und Spanien im Juni 1989 sowie Portugal im April 1992 dem EWS beitraten 

• die Krise des EWS bis zur Erweiterung der Bandbreiten auf 30 % am 2. August 1993, auf 
deren Höhepunkt Großbritannien und Italien im September 1992 aus dem EWS ausschie- 
den, nachdem sie praktisch ihre gesamten Devisenreserven aufgebraucht hatten, um offen- 
sichtlich überhöhte Wechselkurse aus politischen Gründen zu verteidigen 

• die erneute Konsolidierung bis zum Beginn der Europäischen Währungsunion am 
1.1.1999, mit relativ stabilen Wechselkursen trotz hoher Bandbreiten, dem Beitritt Öster- 
reichs (Januar 1995) und Finnlands (Oktober 1996) und dem Wiedereintritt Italiens 
(November 1996). 

3.1.2.5 Der Wechselkursmechanismus seit dem 1. Januar 1999 

Mit Beginn der Europäischen Währungsunion endete das EWS, während gleichzeitig der 
Euro als echte Gemeinschaftswährung den ECU im Verhältnis 1:1 ablöste. Da der Maastrich- 
ter Vertrag die zweijährige abwertungsfreie Teilnahme am EWS zur Voraussetzung für den 
Beitritt eines Landes zum Euro macht, jedoch (noch) nicht alle EU-Staaten diesen Schritt un- 
ternommen haben (und mittelfristig mit dem Beitritt mehrerer zentraleuropäischer Länder zur 
EU zu rechnen ist), wurde im September 1998 von der Europäischen Zentralbank (EZB) die 
Ausgestaltung des früher als EWS II und heute von der Bundesbank als WKM II (Wechsel- 
kursmechanismus II) bezeichneten Nachfolgesystems des EWS beschlossen und ein entspre- 
chendes Abkommen von der EZB und den 4 bisher nicht dem Euro beigetretenen EU-Ländern 
- Dänemark, Griechenland, Großbritannien und Schweden - unterzeichnet. 45 Dieses Abkom- 
men stellt den nicht zum Euro übergegangenen EU-Mitgliedem frei, wann sie dem WKM II 
beitreten. Dänemark und Griechenland haben dies zum 1.1.1999 getan. 

Die Konstruktion des WKM II ähnelt stark der des EWS. Es bestehen jedoch einige bedeut- 
same Unterschiede, die im folgenden kurz zusammengefaßt werden. 



45 Vgl. hierzu den Monatsbericht der Bundesbank vom Oktober 1998. 
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• Das Paritätengitter wird von den Leitkursen zwischen den betroffenen Währungen und 
dem Euro, der also die Ankerwährung im WKM II wird und damit die informelle Rolle 
der DM im EWS offiziell übernimmt, abgelöst. 

• Auch die Bandbreiten werden nur noch im Verhältnis zum Euro bestimmt. Sie betragen 
im Normalfall 30 % (wie z.Zt. für die Griechische Drachme), können aber auf Antrag des 
betroffenen Mitgliedslandes auch reduziert werden (für die Dänische Krone z.Zt. auf 4,5 
%). 

• Die unbegrenzte Interventionsverpflichtung der EZB und der betroffenen nationalen Zen- 
tralbank kann ausgesetzt werden, wenn durch diese Eingriffe die Preisstabilität im Euro- 
Raum gefährdet werden könnte. 

• Die EZB beteiligt sich grundsätzlich nicht an intramarginalen Interventionen. 

• Die betroffenen Zentralbanken erhalten für marginale Interventionen prinzipiell unbe- 
grenzten Kredit bei der EZB, für intramarginale Interventionen jedoch nur bis zum Errei- 
chen einer festgelegten Kreditobergrenze. 

Zusammenfassend läßt sich zum einen sagen, daß mit der Bindung an den Euro die Fiktion 
eines echten multilateralen Systems aufgegeben wird, das faktisch auch im EWS nicht 
bestanden hat, und so die reale Existenz einer Ankerwährung offiziell akzeptiert wird. Damit 
nähert sich der WKM II formal wieder dem System von Bretton- Woods an. 

Zum anderen ist die Verantwortung für das Verbleiben der betroffenen Währungen im 
WKM II nicht gleichmäßig zwischen der EZB und den betroffenen Zentralbanken aufgeteilt. 
Die EZB sichert ihren Beistand zur Überwindung spekulativer Krisen, die nicht durch Fun- 
damentaldaten begründet sind, zu, überläßt die übrigen Maßnahmen (etwa intramarginale 
Interventionen) aber vorwiegend den betroffenen Mitgliedsstaaten. Ähnlich hatte sich ja 
bereits die Bundesbank im EWS verhalten. Insbesondere behält sich die EZB ausdrücklich die 
Option vor, aus stabilitätspolitischen Gründen die Stützung einer unter Druck geratenen Wäh- 
rung einzustellen. 

3.2 Theoretische Grundlagen für Wechselkursmodelle 

Im ersten Abschnitt dieses Kapitels (3.2.1) werden die Elemente monetärer Wechselkursmo- 
delle erläutert, die für die empirischen Untersuchungen benötigt werden. Ihre Integration in 
Gesamtmodelle mit flexiblen Wechselkursen wird in Abschnitt 3.2.2 nur kurz behandelt, da 
auf diese Modelle im weiteren nur an wenigen Stellen Bezug genommen wird. 
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Im folgenden Abschnitt 3.2.3 werden theoretische Ansätze zur Erklärung von Wechselkursen 
in Bandbreitensystemen behandelt. Nach einer kurzen Würdigung der Modelle vom 
Krugmann-Typ (die auf den Ansatz von Krugmann [1991] zurückgehen) wird genauer auf 
Modellansätze eingegangen, die die Besonderheiten des EWS berücksichtigen. 

3.2.1 Determinanten des Wechselkurses 

3.2.1.1 Kaufkraftparitätentheorie 

Den wohl wichtigsten und ältesten Ansatz zur Erklärung des Verlaufs von Wechselkursen 
zwischen zwei Ländern (dem „Inland“ und dem „Ausland“) stellt die Kauflcraftparitätentheo- 
rie ( Purchasing Power Parity Theory , PPP) dar. 46 

Kemgedanke der PPP ist, daß grenzüberschreitende Arbitrageprozesse dazu fuhren, daß der 
inländische und der mit dem Wechselkurs auf die Inlandswährung umgerechnete ausländische 
Preis international handelbarer Güter sich gleichen müssen. Liegen Preisdifferenzen vor, die 
(unter Berücksichtigung von Transport-, Geldwechselkosten u.ä.) Arbitrage lohnend machen, 
so werden diese Güter verstärkt in dem Land mit dem niedrigeren Preisniveau gekauft und in 
das jeweils andere Land im- bzw. exportiert. Durch diese Nachfrageverlagerung steigen die 
Güterpreise in dem Land mit dem niedrigeren Preisniveau und sinken in dem anderen. Außer- 
dem hat der Güterstrom einen Geldstrom in die umgekehrte Richtung zu Folge. Die damit 
einhergehenden Angebots- bzw. Nachfrageveränderungen auf dem Devisenmarkt fuhren zu 
einem Anstieg des Wechselkurses der Währung des Landes mit dem niedrigeren Preisniveau. 
Beide Effekte führen zu einem Angleichen der Güterpreise im internationalen Vergleich, d.h. 
zu einer Veränderung der nationalen Güterpreise und des Wechselkurses in Richtung auf das 
von der PPP vorhergesagte Niveau. 

Wird der Wechselkurs zum Zeitpunkt t , also der Preis der inländischen Währung in der 
ausländischen, mit w t bezeichnet, 47 sowie das Güterpreisniveau im Inland zu diesem Zeit- 
punkt mit P t und das im Ausland mit P * , so bedeutet die Gültigkeit der PPP also, daß gilt 




46 Zu den folgenden Ausführungen vgl. z.B. JARCHOW [1994], S. 214 ff., oder ROSE und SAUERNHEIMER [1995], 
S. 177 ff. 

47 In der deutschsprachigen Literatur ist - im Gegensatz zu der hier verwendeten Mengennotierung - die Preis- 
notierung weiter verbreitet, in der als Wechselkurs der Preis der ausländischen Währung in der inländischen 
bezeichnet wird. Diese Arbeit verwendet jedoch im Einklang mit der internationalen Literatur die Mengennotie- 
rung, die auch am 1.1.1999 an den europäischen Devisenbörsen für die Notierungen des Euro gegenüber anderen 
Währungen eingeführt wurde. 
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Diese sogenannte absolute Form der PPP impliziert für den realen Wechselkurs 
w;=w,-p, /p; 

1 • 

Der reale Wechselkurs ist folglich zeitlich konstant und gleich eins. Weniger restriktiv als die 
absolute ist die relative Form der PPP, die man aus der absoluten durch Logarithmierung und 
Bildung der ersten zeitlichen Differenzen erhält. Sie besagt, daß gilt 
log(w,/w M ) = \og(P;/P^)-\og(P t /P tA ) , 

oder (da für jede Variable x t gilt: log(jc,/jt M ) «— — = ) 

Aw, ^ AP* A P t 

W,-l K 1 P ,-> 

Demnach entspricht die Veränderungsrate des Wechselkurses (näherungsweise) der Differenz 
zwischen der in- und der ausländische Güterteuerungsrate. Die relative Form der PPP ist 
äquivalent dazu, daß für den realen Wechselkurs gilt 

< = <i > 

d.h. w, r = k 

mit einer Konstanten k. Der reale Wechselkurs ist also zeitlich konstant; die absolute PPP 
erhält man als Spezialfall für k = 1 . 

Häufig wird die Gültigkeit der PPP nicht nur für einzelne Güter gefordert, sondern für 
einen ganzen Warenkorb international handelbarer Güter. Für diesen Warenkorb kann die 
PPP i.a. natürlich nicht mehr exakt, sondern nur noch näherungsweise gelten. Gilt die relative 
Form der PPP für einen solchen Warenkorb, so kann man die in- und ausländischen Preisver- 
änderungsraten natürlich auch mit Hilfe passender Preisindizes berechnen. In empirischen 
Anwendungen wird hier gewöhnlich der Verbraucherpreisindex {Consumer Price Index , CPI) 
des jeweiligen Landes verwendet. 48 

3.2.1.2 Zinsparitätentheorie 

Das finanzmarkttheoretische Äquivalent zur PPP ist die Zinsparitätentheorie. Anstelle von 
(realen) Gütern werden bei der Zinsparitätentheorie zinstragende in- und ausländische Wert- 
papiere betrachtet. Als zusätzlicher Aspekt kommt hinzu, daß die Laufzeit der Anlage und 

48 Alternativ hierzu bietet sich der Preisindex für gewerbliche Erzeugnisse ( Wholesale Price Index , WPI) an. 
Einige Autoren argumentieren, daß sich darin die international handelbaren Güter genauer widerspiegeln, eine 
Meinung, die aber nicht von allen Autoren geteilt wird. Vgl. hierzu z.B. Dreger [1996], S. 50, oder Diebold 
[1988], S. 117. 
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damit eventuelle Wechselkursveränderungen bis zum Auszahlungstermin berücksichtigt wer- 
den müssen. Dies kann je nach Anlagestrategie in unterschiedlicher Weise erfolgen. 

Bei der gedeckten Zinsparität ( Covered Interest Parity , CIP) wird das Wechselkursrisiko 
durch eine Absicherung am Terminmarkt ausgeschaltet. Bezeichnet wieder w t den Preis der 
ausländischen Währung in der inländischen, f t , +1 den Terminkurs zum Zeitpunkt t für den 

Zeitpunkt t + 1 , i { den zeitstetig angepaßten nominellen Zinssatz im Inland mit Laufzeit von t 
bis t + 1 und i* den entsprechenden Zinssatz im Ausland, so besagt die CIP, daß gelten muß 



Die linke Seite dieser Gleichung stellt den Auszahlungsbetrag zum Zeitpunkt t + 1 für die 
Anlage einer Einheit der inländischen Währung zum Zeitpunkt t dar (oder die Kosten einer 
Kreditaufnahme in dieser Höhe, wenn man davon ausgeht, daß Kredit- und Anlagezinssatz 
übereinstimmen). Die rechte Seite repräsentiert den Auszahlungsbetrag zu diesem Zeitpunkt, 
wenn der Betrag statt dessen in die ausländische Währung getauscht, dort angelegt und 
gleichzeitig der Rücktausch in die inländische Währung zum Zeitpunkt t + 1 durch ein Ter- 
mingeschäft bereits zum Zeitpunkt t fixiert wird. Wird diese Anlage durch einen Kredit in der 
inländischen Währung zum Zinssatz i t finanziert, so ist dieses Geschäft risikolos, und jede 
Abweichung von der CIP eröffnet ebensolche risikolosen Arbitragemöglichkeiten. Dies fuhrt 
dazu, daß die CIP unter Berücksichtigung von Transaktionskosten zumindest für Anlagen an 
Euro-Kapitalmärkten (also außerhalb des Geltungsbereichs der betroffenen Währungen) in 
der Regel erfüllt ist. 49 

Bei der ungedeckten Zinsparität (Uncover ed Interest Parity , UIP) wird auf die Absicherung 
durch das Termingeschäft verzichtet. Die Zinsdifferenz zwischen In- und Ausland ist dann ein 
Ausdruck für Erwartungen über die Entwicklung des Wechselkurses bis zum Auszahlungs- 
zeitpunkt. Bezeichnet w e t t+x den zum Zeitpunkt t für den Zeitpunkt t + 1 erwarteten Wechsel- 



kurs, so bedeutet dies 




oder in relativer Form 



= log«», An) s 



49 Infolge von Kapitalverkehrskontrollen kann es sein, daß inländische Zinsen nicht marktgerecht sind und 
deshalb für sie Abweichungen von der CIP auftreten. Vgl. Jarchow [1994], S. 244. 
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Die Zinsdifferenz zwischen Aus- und Inland ist also (näherungsweise) gleich der erwarteten 
Veränderungsrate des Wechselkurses. 

3.2.2 Monetäre Wechselkursmodelle für flexible Wechselkurse 

In den 70er Jahren wurden Kaufkraft- und Zinsparitätentheorie in monetaristische Gesamt- 
modelle integriert, in denen das Preisniveau von den jeweiligen Geldmärkten bestimmt 
wird. 50 Als zentrale Verhaltensgleichungen kommen in diesen Modellen die Geldnachfrage- 
funktionen der beiden Länder hinzu. Weiter wird angenommen, daß die Erwartungsbildung 
rational ist, d.h. 

= E(w m | /,) , 

wobei I t die Informationsmenge zum Zeitpunkt t bezeichnet. Unter diesen Annahmen werden 
Veränderungen des Geldangebotes quantitätstheoretisch direkt in entsprechende Veränderun- 
gen des Preisniveaus umgesetzt und fuhren über die PPP zu proportionalen Wechselkursver- 
änderungen. 

Die Annahme, daß die PPP auch kurzfristig jederzeit erfüllt ist, wurde jedoch von empiri- 
schen Studien in der Regel nicht bestätigt. Sie wurde deshalb in Modellen mit verzögerter 
Preisanpassung aufgegeben, bei denen die Güterpreise nicht mehr völlig flexibel sind. 51 In 
diesen Modellen bestimmt die PPP nur noch den langfristigen Wechselkurs. Die Zinsparitä- 
tentheorie hingegen ist auch kurzfristig immer erfüllt und stellt (über die Annahme rationaler 
Erwartungen) die Verbindung zum aktuellen Wechselkurs her. Die wichtigste Modellaussage 
ist, daß Veränderungen in der Geldbasis langfristig zu proportionalen Veränderungen in den 
Preisniveaus und dem Wechselkurs fuhren. Kurzfristig kann die Veränderung des laufenden 
Wechselkurses aufgrund der verzögerten Preisanpassung jedoch stärker sein (sogenannte 
überschießende Wechselkursreaktionen ): Eine Ausweitung der inländischen Geldbasis fuhrt 
sofort zu einem niedrigeren inländischen Zins und damit zu Kapitalexporten. Die damit ein- 
hergehende höhere Nachfrage nach Devisen kann den laufenden Wechselkurs über das lang- 
fristige Gleichgewichtsniveau hinaus erhöhen. 



50 Vgl. hierzu z.B. FRENKEL [1976]. 

51 Vgl. hierzu DORNBUSCH [1976]. 
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3.2.3 Modelle für Wechselkurse in Bandbreitensystemen 

3.2.3.1 Modelle vom Krugmann-Typ 

Von Krugmann [1991] stammt die erste Einbettung eines monetären Wechselkursmodells in 
einen „absolut glaubwürdigen“ Zielzonen-Wechselkursmechanismus, d.h. ein Bandbreitensy- 
stem, bei dem die Wahrscheinlichkeit für ein Realignment gleich Null ist. 52 Sein bahnbre- 
chendes Modell inspirierte eine Zahl weiterer Arbeiten, die Erweiterungen in verschiedener 
Hinsicht darstellen. 53 Allen diesen Modellen war aber insbesondere an EWS- 
Wechselkursdaten, also dem wesentlich wichtigeren Fall nicht absolut glaubwürdiger Zielzo- 
nen, nur sehr begrenzter empirischer Erfolg beschieden. 54 Aus diesem Grund und weil die 
Modelle in stetiger Zeit formuliert sind, also den Apparat der stochastischen Analysis benöti- 
gen, wird auf ihre Darstellung hier verzichtet. 

3.2.3.2 Modelle für den Verlauf von Wechselkursen im EWS 

Die in Kapitel 3.1 erläuterten Konstruktionselemente des EWS haben Konsequenzen für den 
zu erwartenden Verlauf der entsprechenden Wechselkurse, die von verschiedenen, nicht auf 
den Ansatz von Krugmann zurückgehenden Modellen für EWS- Wechselkurse aufgegriffen 
werden. 

Zum einen ist damit zu rechnen, daß der Einfluß von Fundamentalfaktoren (etwa der Preis- 
oder der Geldmengenentwicklung) auf den Wechselkurs durch Interventionen der beteiligten 
Zentralbanken gedämpft wird. Wenn die Zentralbanken divergierenden Inflationsraten mit 
Hilfe von Stützungskäufen der schwachen bzw. Verkäufen der starken Währung begegnen, 
kann der Zusammenhang zwischen der Preis- und der Wechselkursentwicklung nicht so direkt 
sein wie zwischen frei floatenden Währungen. Das wirft die Frage auf, ob sich systematische 
Zentralbankeingriffe, die in der Regel Auf- bzw. Abwertungstendenzen entgegengerichtet 
sein werden, in typischen Verlaufsmustem der Wechselkurse niederschlagen. 

Zum anderen kommt dem Element der Spekulation in einem solchen Wechselkurssystem, 
das Realignments ausdrücklich vorsieht, besondere Bedeutung zu. Die beteiligten Zentralban- 
ken haben sich ja aus währungspolitischen Gründen verpflichtet, solange bestimmte An- und 
Verkaufskurse zu garantieren, bis neue Leitkurse festgelegt werden. Ein Marktteilnehmer, der 
solch ein Realignment vorhersieht, kann die durch diese Garantieerklärung bedingte Starrheit 



52 Diese Arbeit kursierte bereits seit 1989 als Arbeitspapier, so daß die ersten Modifikationen und empirischen 
Untersuchungen schon vor 1991 erschienen. 

53 Vgl. z.B. Bertola und Caballero [1991] oder Bertola und Svensson [ 1 993]. 
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der Kurse ausnutzen, indem er Kredite in einer unter Abwertungsverdacht stehenden Wäh- 
rung aufnimmt und damit eine unter Aufwertungsverdacht stehende Währung bei den Zen- 
tralbanken kauft, bis die Zentralbanken nicht mehr willens oder in der Lage sind, die starke 
Währung zu dem garantierten Kurs zur Verfügung zu stellen. Dies fuhrt dann sofort zu einem 
deutlichen Kursanstieg der stärkeren Währung gegenüber der schwächeren, den die Zentral- 
banken dann durch ein Realignment bestätigen werden (falls nicht sogar ein Land oder mehre- 
re Länder aus dem Wechselkursverbund ausscheren). Der Spekulant kann diesen Kursanstieg 
ausnutzen, seine Guthaben in der starken Währung zu einem höheren Kurs verkaufen, als er 
sie erworben hat, und behält nach Tilgung seiner Kredite in der schwachen Währung einen 
Gewinn. 

Marktteilnehmer, die über Devisenbestände (oder Kredite) in der Größenordnung der Devi- 
senreserven und Finanzierungsfaszilitäten der beteiligten Zentralbanken verfugten, stellten 
eine ernsthafte Bedrohung für das EWS dar. Der bekannteste Fall einer solchen Spekulation 
war der gegen das britische Pfund und die italienische Lira im Jahre 1992 (unter anderem 
durch den Amerikaner George Soros), der dazu führte, daß diese beiden Länder am 17. Sep- 
tember 1992 aus dem EWS austraten, nachdem sie praktisch die gesamten nationalen Devi- 
senbestände zur Verteidigung der schließlich nicht haltbaren Leitkurse eingesetzt hatten. 

Spekulative Krisen des Währungssystems waren regelmäßig mit stark schwankenden 
Wechselkursen verbunden, die die der Marktentwicklung entgegengerichteten Eingriffe der 
Zentralbanken und natürlich die „Spekulation gegen die Spekulanten“ hervorrief. Kurzfristig 
stark fluktuierende Wechselkurse (d.h. hohe Volatilität) in der Nähe einer Interventionsgrenze 
können also ein Anzeichen für eine solche spekulative Phase darstellen, auch wenn sie - ex 
post - tatsächlich nicht zu einem Realignment führten. Eine weitere Begleiterscheinung sol- 
cher Perioden ist die in der UIP zum Ausdruck gebrachte Risikoprämie in Form von höheren 
Zinsen, die die Marktteilnehmer für die Anlage in einer unter Abwertungsverdacht stehenden 
Währung verlangen. Es ist deshalb verschiedentlich vorgeschlagen worden, hohe Zinsdiffe- 
renzen als Indikator für eine spekulative Phase zu verwenden. 55 

Wie in Kapitel 3. 1.2.2 erläutert wurde, war der Interventionsmechanismus des EWS nicht 
an die ECU-Leitkurse, sondern an das bilaterale Paritätengitter gekoppelt. Ferner wurde in 
Kapitel 3. 1.2.4 erläutert, daß die DM faktisch die Rolle einer Ankerwährung des EWS ein- 
nahm. Deswegen ist es sinnvoll und üblich, als Grundlage empirischer Untersuchungen die 
bilateralen Wechselkurse zwischen der DM und den übrigen nationalen Währungen zu ver- 

54 Vgl. z.B. Smith und Spencer [1991] oder de Jong [1994]. 

55 Vgl. z.B. Bekaert und Gray [1998]. 
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wenden (und nicht etwa die ECU-Kurse, die in offiziellen Publikationen wie z.B. den Bun- 
desbankberichten häufig dargestellt werden). 



3.3 Die empirische Untersuchung von Wechselkursen im EWS mit Hilfe 
von Regimewechselmodellen 

In der empirischen Literatur über das EWS sind verschiedene Versuche unternommen wor- 
den, das wechselnde spekulative und nicht-spekulative Verhalten der Marktteilnehmer mit 
Hilfe von Regimewechselmodellen zu beschreiben. 56 Engel und Hakkio [1996] schätzen 
inhomogene Markov-Modelle, bei denen der Regimeindikator von der relativen Position im 
Wechselkursband in der Vorperiode abhängt, für den Kurs der DM gegen den Französischen 
Franc und die Italienische Lira mit Daten von 1979 bis 1992 bzw. 1993. Bekaert und Gray 
[1998] verwenden für ein Regimewechselmodell für den DM/Franc-Kurs im selben Zeitraum 
die Zinsdifferenz zwischen den beiden Ländern als Regimeindikator. Der jeweils verwendete 
Regime Wechselmechanismus wird aber in der Regel kaum durch Tests statistisch abgesichert, 
die sicherstellen, daß mehrere Zustände vorliegen und daß sie auf die angegebene Weise 
zustande kommen. Für dieses Defizit an statistischer Untermauerung des Mechanismus der 
Parametervariation gilt immer noch die Forderung von Boothe und Glassman: 

„ Further research on the hypothesis of time-varying parameters should focus on 
specifying and testing models of systematic parameter Variation over time. ” 57 
Außerdem konzentrieren sich die Untersuchungen auf die frühe Phase des EWS bis zur Krise 
1992/93. Es stellt sich die Frage, ob die EWS-Kurse auch danach, insbesondere nach der 
Erweiterung der Bandbreiten, Anzeichen von Regimewechseln zeigen, die sich durch speku- 
lative Phasen erklären lassen, und wie sich gegebenenfalls die Kurse in den Zuständen ver- 
hielten. 

Im empirischen Teil dieser Arbeit soll daher zum einen gezeigt werden, wie spekulative 
Phasen in der jüngeren Geschichte des EWS mit Hilfe von Regime Wechselmodellen beschrie- 
ben und erklärt werden können. Hierfür ist es notwendig, relativ kurzfristige Daten zu unter- 
suchen (hier werden Wochenwerte verwendet), für die keine entsprechenden makroökonomi- 
schen Werte zur Verfügung stehen. Deswegen stehen in dieser Betrachtung statistische und 
zeitreihentheoretische Aspekte im Vordergrund. 



56 Diese Arbeiten schließen an frühere Untersuchungen über Regimewechselmodelle für frei floatende Wechsel- 
kurse an, vgl. etwa Engle und Hamilton [1990], Lee [1991] und Kaehler und Marnet [1994]. 

57 Boothe und Glassman [1987], S. 316. 
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Zum anderen soll die PPP im Kontext von Regimewechselmodellen untersucht werden. In 
den letzten Jahren ist die absolute PPP hauptsächlich mit Hilfe von Kointegrationsanalysen 
überprüft worden, da es Hinweise darauf gibt, daß die Niveaus der betroffenen Größen nicht- 
stationäre Prozesse darstellen. 58 Da aber für Regimewechselmodelle, so wie sie in dieser Ar- 
beit behandelt werden, die Konsistenz der Schätzer i.a. nur für stationäre Zeitreihen gesichert 
ist (vgl. dazu Kapitel 6.1), wird hier die relative Form der PPP untersucht. Allgemein wird 
davon ausgegangen, daß sich die relative PPP für kurzfristige Werte empirisch nicht bestäti- 
gen läßt, und daß ein Wechselkursmechanismus wie das EWS einen derartigen Zusammen- 
hang gar nicht zuläßt. Diese Annahme soll mit Regimewechselmodellen, die Verhaltensände- 
rungen ausdrücklich berücksichtigen, anhand von Monatsdaten überprüft werden. 

Beide Untersuchungen werden an zwei Wechselkursen im EWS, dem zwischen dem Fran- 
zösischen Franc (FF) und der DM sowie dem des Niederländischen Gulden (NG) und der 
DM, durchgeführt. Die DM wurde in beiden Fällen als Bezugsgröße gewählt, da sie (wie oben 
beschrieben) faktisch die Rolle einer Ankerwährung im EWS übernommen hatte. Der Franc 
als wichtigste Währung im EWS neben der DM war starken Schwankungen unterworfen und 
repräsentiert damit eine Währung, die anfällig für Spekulation war. Im Gegensatz dazu stellte 
der Gulden mit seiner starken Bindung an die DM eine Währung mit geringen Kursausschlä- 
gen dar, für die Spekulation - und damit vermutlich auch Verhaltensänderungen - von gerin- 
gerer Bedeutung gewesen sein dürfte. 59 

Von diesen insgesamt vier Untersuchungen wird die erste (basierend auf Wochendaten fin- 
den Wechselkurs zwischen Franc und DM) verwendet, um die wichtigsten Aspekte der Mo- 
dellierung von Regimewechselmodellen - Schätzung, Tests und Prognosen - direkt im An- 
schluß an die theoretische Darstellung in den entsprechenden Kapiteln ausführlich zu veran- 
schaulichen. Die restlichen drei Untersuchungen werden in etwas knapperer Form in Kapitel 
10 präsentiert. 



58 Vgl. z.B. Mark [1990], Cheung und Lai [1993] oder Dueker [1993]. 

59 Der empirische Teil der Arbeit ist ähnlich aufgebaut wie der in DlEBOLD [1988], in dem verschiedene floaten- 
de Wechselkurse im Zusammenhang von (G)ARCH-Modellen an Wochendaten und im Kontext von PPP und 
Integration/Kointegration anhand von Monatsdaten untersucht werden. 
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4 ML-Schätzung 

Für die Schätzung von Regimewechselmodellen hat sich das Maximum-Likelihood- 
(ML-) Verfahren durchgesetzt. Dafür gibt es verschiedene Gründe. Zum einen bieten sich in 
den meisten Fällen keine anderen Schätzer unmittelbar an (mit Ausnahme der Varianzschät- 
zer, worauf an den entsprechenden Stellen genauer eingegangen wird). Zum anderen ist die 
ML-Schätzung eng mit den asymptotischen Testverfahren verknüpft, die im Zusammenhang 
von Regime Wechselmodellen häufig angewendet werden . 60 

Die ML-Schätzer sind - je nach Modelltyp - denen für klassische Regressions- bzw. Zeit- 
reihenmodelle (aufgrund der Verwandtschaft der Regimewechselmodelle zu ihnen) sehr ähn- 
lich. Für das klassische Regressionsmodell ist der ML-Schätzer des Regressionsparameters 
gleich dem OLS -{Ordinary Least Squares-) Schätzer, der ML-Schätzer der Störvarianz unter- 
scheidet sich nur um einen nicht von den Beobachtungen abhängigen Faktor von dem norma- 
lerweise verwendeten erwartungstreuen Schätzer, und diese beiden sind asymptotisch gleich. 
Ähnliches gilt für AR-Modelle. Deswegen sind die ML-Schätzer für homoskedastische Re- 
gimewechselmodelle den OLS-Schätzem gewöhnlicher linearer Modelle ähnlich, und für ihre 
Berechnung kann' auf das OLS-Verfahren zurückgegriffen werden. Ähnliche Analogien be- 
stehen zwischen den ML-Schätzem für heteroskedastische Regimewechselmodelle und den 
GLS -{Generalised Least Squares-)$ohä\.ZQm heteroskedastischer linearer Modelle Dieser 
Aspekt ist besonders für die praktische Arbeit mit Regimewechselmodellen von Bedeutung 
und wird deshalb im folgenden besonders beachtet. 

Die ML-Schätzer für Modelle mit latenten Zuständen (d.h. Mischlings- und Markov- 
Modelle) können ihrerseits als eine Verallgemeinerung derjenigen für Modelle mit beobacht- 
baren Zuständen (also insbesondere Schwellenmodelle mit bekanntem Schwellenwert) ange- 
sehen werden. Um diesen Zusammenhang deutlich zu machen und um die ML-Schätzer für 
Mischungs- und Markov-Modelle übersichtlich darstellen zu können, werden im folgenden 
zuerst Schwellenmodelle ausführlich behandelt. 

4.1 Stochastische Spezifikation 

In diesem Abschnitt werden die allgemeinen Voraussetzungen für Regimewechselmodelle mit 
zwei Zuständen spezifiziert und einige Bezeichnungen eingeführt. Diese werden dann in den 
folgenden Abschnitten für die einzelnen Modelltypen präzisiert. 

60 Vg. hierzu Kapitel 6. 




36 



4 ML-Schätzung 



Die endogene Variable sei 

y = O'i.— .J'r)'» 

die Regressoren (die vorherbestimmten Größen) seien 





X — (x„...,X*) 


und 


W = (w„...,w t ) , 


wobei 


x ( =(x u ,.-,x 7 . i ) , fur( = l,. 


und 


w, = (w, ,)' für i = 1, 



Spaltenvektoren mit den Werten eines festen Regressors zu verschiedenen Zeitpunkten dar- 
stellen. X und W enthalten keine gemeinsamen Spalten. 

Die Werte der vorherbestimmten Größen zum Zeitpunkt t werden mit den Zeilenvektoren 
X, = (x t j ,...,x t K ) 

bzw. W, =(w r>1 ,...,w fi ) 

bezeichnet. 

Ein Teil der Parameter des Modells zum Zeitpunkt t hängt von dem jeweiligen Zustand ab, 
der durch die Zustandsvariable s t beschrieben wird, die die zwei möglichen Werte 1 und 2 
annehmen kann. Die Zustandsvariablen bilden den Zustandsvektor 

s = fa,.», J r )' • 

Falls X oder W (oder beide) verzögert endogene Größen der maximalen Laglänge m enthal- 
ten, so sei 



und w f =(w.„ +u ,...,H' ()j ,H' U( ...,w ri )'fÜr/ = l,... > Z, . 



Die übrigen Regressoren (die exogenen Größen) sind entweder nichtstochastisch, oder stocha- 
stisch und unabhängig von dem Störprozeß 

u = (w,,...,w r )' . 



Für die Verteilung der Störvariablen gilt 



u~N(0, Q), Q = 



f < 0 

0 er, 2 



... o 

*\ 0 
0 G 2 



wobei ai 2 > 0 und 02 2 > 0 . 
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Die Störvariablen zu verschiedenen Zeitpunkten sind also unabhängig, und es wird Hete- 
roskedastie in dem Sinne betrachtet, daß die Störvarianz von dem jeweiligen Zustand abhän- 
gen kann. 

Ein Regimewechselmodell lautet dann allgemein 

f\V,a + X,/3, + u t , falls s, = 1 
y ‘ ~ 1 W,a + X,ß 2 +u, , falls j, = 2 , 



wobei 

ß\ = ßij :) > ^2 = (/^ 2,1 >•••> ßi.ic) und a = (a 15 ...,a L ) . 

Es sind demnach nur die Regressionsparameter von X, nicht aber die von W, vom jeweiligen 
Zustand abhängig. 

Dieses allgemeine Modell enthält u.a. folgende Spezialfälle : 

(1) X = 0, cri 2 * 02 2 : Dies ist ein lineares Regressionsmodell mit einer speziellen Form von 
Heteroskedastie. 

(2) X * 0, W = 0, cri 2 = 02 2 : Alle Regressionsparameter sind zustandsabhängig, es liegt 
Homoskedastie vor. 

(3) X * 0, W = 0, <Ti 2 * 02 2 : Alle Regressionsparameter sind zustandsabhängig, das Modell 
ist heteroskedastisch. 

(4) X * 0, W * 0, cri 2 = 02 2 : Es gibt zustandsabhängige und -unabhängige Regressionspa- 
rameter, es liegt Homoskedastie vor. 

(5) X * 0, W * 0, cri 2 * Gi: Es gibt zustandsabhängige und -unabhängige Regressionspa- 
rameter, das Modell ist heteroskedastisch. 

Ein interessanter Fall, der durch diese Spezifikationen nicht erfaßt wird, liegt vor, wenn wei- 
tere Regressoren V 1 die abhängige Variable nur in Zustand 1 beeinflussen und andere 
Regressoren V 2 nur in Zustand 2. Der allgemeinste Fall wäre dann also 
J\V,a + X f ß, + V/y, + u t , falls s t = 1 
y ' ~ 1 W,a + X,ß 2 + V, 2 y 2 + u, , falls s, = 2 ' 



Um die Darstellung übersichtlich zu halten, wurde dieser Fall nicht gesondert in die obige 
Auflistung aufgenommen. Er läßt sich aber ohne weiteres mit den weiter unten dargestellten 
Methoden behandeln. In den folgenden Kapiteln wird an den entsprechenden Stellen darauf 
hingewiesen, wie sich die dargestellten Ergebnisse auf diesen Fall verallgemeinern lassen. 
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4.2 Schwellenmodelle 

Bei diesen Modellen hängt die Zustandsvariable direkt in Form einer Treppenfunktion von 
einem Zustandsindikator z t ab: 

Jl falls z t <c 
S ‘ |2 falls z t >c. 

Hierbei ist z t ebenso wie die exogenen Größen entweder nichtstochastisch, oder stochastisch 
und unabhängig von dem Störprozeß u . 61 

Es wird zuerst der Fall betrachtet, bei dem X und W keine verzögert endogenen Variablen 
enthalten. Falls einige oder alle exogenen Größen stochastisch sind, wird durch das Modell 
nur die bedingte Verteilung von y gegeben diese exogenen Größen spezifiziert. In diesem Fall 
sind die im folgenden betrachteten Wahrscheinlichkeitsdichten immer als „gegeben X, W und 
z” zu verstehen, was aber um einer besseren Übersichtlichkeit willen nicht ausdrücklich 
notiert wird. Es gilt 

f(y, ) = f(y„ *,=!)+ f(y,. = 2) 

{/(«, =y, - W,a-X, ß 2 ), falls z, >c 
-fX-e 2ct ‘ , falls z t <c 

(>>,-W,a-X,/3 2 ) 2 

-=L-e 2<Jl ,fallsz>c. 

LV27ra 2 1 

Da die Fehlervariablen u t zu verschiedenen Zeitpunkten unabhängig (und unabhängig von den 
Regressoren) sind, gilt 

/(y)=ri/0'.) 

/=1 

-n/wn/w 

z,<c z,Sc 

(y-W'CL-X'ßi) 2 (y- W ia -x,ß 2 ) 2 

n 2o,! • 

1 1 V2 na, 
z,Zc 

Wird die Anzahl der z t mit z t <c (bzw. z t > c ) mit T\ (bzw. Ti) bezeichnet, so gilt 




61 Die Ausführungen im diesem Kapitel sind für Schwellenmodelle formuliert. Sie sind jedoch auch für andere 
Modelle mit beobachtbarem Zustandsindikator gültig (es müssen lediglich die Ausdrücke ”z < c” und ”z > c” 
durch die entsprechenden Bedingungen für das Vorliegen der einzelnen Zustände ersetzt werden). 
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>°g(/(y )) =£ i°g(/(j'< )) 

/= 1 

= -|log(2^)-7; Iog(<T,)-r 2 log(a 2 ) 

_(x- W,a-X,j3,) 2 ^(y,-W,a-X,ß 2 ) 2 

Zu Q__ 2 2-( o_2 

z,<c z,*c z °2 

Falls X oder W (oder beide) verzögert endogene Größen der maximalen Laglänge m enthal- 
ten, so gilt 

/(y) = = [n^< I , 

also 



T 

/(ybo.-.y-^i) = n/0',b,-i>-,y,-J . 

f=l 



und 



f(y,\y,-i,-,y,-*) = 



U-w^-x^,) 2 


1 e 


2 *i 




(y,-W l a-X l ß 2 ) 2 


I e 


2a l 


.42na 2 





, falls z, < c 



, falls z, > c . 

Der obige Ausdruck für log(/ (y)) stellt also, falls verzögert endogene Variablen unter den 



Regressoren sind, die bedingte Log-Likelihood gegeben y 0 ,... 9 y_ m+ 1 (sowie X, W und z) dar. 
Dies wird im folgenden der Übersichtlichkeit halber in der Notation nicht mehr ausdrücklich 
berücksichtigt. Die weiter unten berechneten ML-Schätzer sind hier (auf die ersten m Werte 
der endogenen Variablen) bedingte ML-Schätzer. 62 Berücksichtigt man diesen Unterschied in 
der Interpretation der Wahrscheinlichkeitsdichten, behalten alle folgenden Ausführungen auch 
für dynamische und reine Zeitreihenmodelle ihre Gültigkeit. Liegen noch Regressoren V 1 in 
Zustand 1 und V 2 in Zustand 2 vor, so ist in den obigen Ausdrücken ( y t - W,a -X,ß t ) durch 



( y t - W,a - X t ß i - V'/j) für i =1 , 2 zu ersetzen. 

Die ML-Schätzer werden zuerst (in Kapitel 4.2.1) für Schwellenmodelle mit bekanntem 
Schwellenwert hergeleitet, also für Modelle, bei denen die Abfolge der Zustände von vorn- 
herein bekannt ist. Liefert der Zustandsindikator nur unvollständige Informationen über die 
vorliegenden Zustände (etwa im Falle eines Schwellenmodells mit unbekanntem Schwellen- 



62 Diese bedingten ML-Schätzer sind für lineare Modelle asymptotisch äquivalent zu den exakten ML-Schätzem, 
vgl. Judge u.a. [1985], S. 237 f., oder Hamilton [1994b], Kap. 5.3. 
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wert oder eines verallgemeinerten Schwellenmodells), so ergeben sich besondere Probleme 
bei der ML-Schätzung, die in Kapitel 4.2.2 behandelt werden. 

4.2.1 Bekannter Schwellenwert 

Falls der Schwellenwert bekannt ist, also das jeweilige Regime beobachtbar ist, lassen sich 
in den meisten Fällen aus den Normalgleichungen, die in Kapitel 4.2. 1.1 berechnet werden, 
geschlossene Ausdrücke für die ML-Schätzer herleiten, die in Kapitel 4.2. 1.2 angegeben sind. 
Die übrigen Fälle, für die sich die Normalgleichungen nicht auflösen lassen, werden in Kapi- 
tel 4.2. 1.3 behandelt. 



4.2.1. 1 Bestimmung der Normalgleichungen 

Durch Differentiation nach den Parametern erhält man folgende Normalgleichungen: 

diog(/(y)) . 0 

dß\ 

X)X, , (^-W,a-X,ß 1 ) = 0 , (al) 



<?iog(/(y)) _ 0 

Sßi 

Zx.’O',- W,cx-X l p 2 )=0 , 



(a2) 



diog(/(y)) _ 0 

da 

^ W,'(y,-W^-X,ft) t w,'(y, - w,a - x,p,) 0 

z,<c 2 g^ Z 'Z C 2<J 2 

Ist Gi 2 = G2, so lautet diese Gleichung 



(b) 



IW.’O* - W,a - X,/3,) + X w,'(y, - W,a - X,ß 2 ) = 0 

z, <c z,tc 

^iog(/(y)) n 

da, ° 

!>,- W,a-X,j3,) 2 

2 _ z,<c 



<?iog(/(y)) _ 0 0 

ög 2 

!>,- W,a-X,ß 2 f 

,2 _ 



(b’) 



(cl) 



(c2) 
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Ist g 2 = 02 2 , so erhält man anstelle von (cl) und (c2) die Gleichung 
2>, -W,a-X,W 2 +][>, -W,a-X t ß 2 ) 2 

_2 z,<c z.Zc 

CT = . 

T 



(c) 



4.2. 1.2 Berechnung von Parameterschätzern durch Hilfsregressionen 



In diesem Abschnitt wird erläutert, wie die (bedingten) ML-Schätzer, die sich aus den Nor- 
malgleichungen des letzten Abschnitts ergeben, mit Hilfe von Einfachregressionen 
berechnet werden können. 

(1) X = 0, G\ * g 2 : Hier läßt sich kein geschlossener Ausdruck für die ML-Schätzer ange- 
ben. Dieser Fall wird in Kapitel 4.2. 1.3 behandelt. 

(2) X * 0, W = 0, G 2 - g 2 - o 2 : Die Normalgleichungen sind (al), (a2) und (c). Die Glei- 
chungen (al) und (a2) sind die Gleichungen separater Regressionen von y auf X für die Zeit- 
räume, die durch z t < c bzw. z t >c gekennzeichnet sind. Diese Regressionen kann man auch 
folgendermaßen berechnen: Sei X 1 die Matrix, deren Me Zeile gleich X t ist, falls s t = 1, und 0 
sonst. Analog sei X 2 definiert. Es gilt also X = X 1 + X 2 . Sei 

f o \ 

x=(x‘ X 2 ) und ß= 

{Pb 

Dann sind die Normalgleichungen für die Parameter des gewöhnlichen linearen Modells 
y = Xß + u , u ~ N(0, o 2 !) 

dieselben wie die in Kapitel 4.2. 1.1 hergeleiteten. Sie lauten nämlich in Matrixform 
X’(y-X/3) = 0 



(X 2 )' 



(y-(x‘/3, X 2 /3 2 ))=0 



(dies sind die Gleichungen (al) und (a2), da nach Konstruktion (X^'X 2 =(X 2 )'X 1 = 0), 



<r 2 =i(y-X/3)'(y-X/3) 

(dies ist Gleichung (c)). Also sind ß l und ß 2 die OLS-Schätzer einer Regression von y auf 
die Spalten von X 1 und X 2 , d.h. 
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= ß = (X'X)~'X'y , 63 



und ff 2 der ML-Schätzer der Fehlervarianz dieses Modells (ohne Korrektur um die Freiheits- 
grade). 

(3) X * 0, W = 0, cti 2 * <7 2 2 : Die Normalgleichungen für /3, und ß 2 sind wieder (al) und 



(a2). Also sind J3, und ß 2 dieselben Schätzer wie bei (2). Obwohl in diesem Fall Heteroske- 

dastie (mit unbekannter Varianz-Kovarianz-Matrix) vorliegt, liefert die OLS-Schätzung we- 
gen der speziellen Form von Heteroskedastie also auch ML-Schätzer für J3, und ß 2 (was im 



allgemeinen nicht der Fall ist, vgl. Kapitel 4.2. 1.3). 

Die Normalgleichungen für <T] 2 und 02 2 sind (cl) und (c2), die ML-Schätzer sind jeweils 
das arithmetische Mittel der geschätzten Fehler der Hilfsregression in den Zeiträumen, die 
durch z t < c bzw. z t > c gekennzeichnet sind. Definiert man y 1 und y 2 analog zu X 1 und X 2 
(d.h. yj = y t , falls s t = 1, und y] = 0 sonst, und entsprechend für y 2 , also y = y 1 + y 2 ), so gilt 



C yf =^(y'-X'/3 ( )'(y'-X'/§ ( ) für / = 1, 2. 

■*/ 

Der Schätzer cf 2 aus (2) ist das mit den relativen Häufigkeiten der beiden Zustände gewich- 
tete Mittel von cf, 2 und o 2 , d.h. 

-2 ^1 -2 , ?2 *2 
v = Y l + Y 2 ‘ 

(4) X * 0, W * 0, <j\ 2 = 02 2 : Die Normalgleichungen sind (al), (a2), (b’) und (c). Da (al), 
(a2) und (b’) die Parameter a, ß l und ß 2 enthalten, kann man die ML-Schätzer jetzt nicht 



mehr mit separaten Regressionen berechnen. Statt dessen bietet sich folgende Hilfsregression 
an: Seien X 1 und X 2 wie bei (2) definiert. Sei jetzt 



x=(x‘ X 2 w) und ß = 



& 



Dann sind wieder die Normalgleichungen für die Parameter des Modells 
y = Xß + u , u ~ N(0, a 2 I) 

dieselben wie die in Kapitel 4.2. 1.1 hergeleiteten. Sie lauten hier für ß 



63 Hier muß man natürlich die Invertierbarkeit der Momentenmatrix voraussetzen. Dies gilt analog auch für die 
folgenden Fälle. 
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W 

(x 2 )' 

W 

V / 



x'(y-xß) = o 

(y - (x l /3, X 2 /3 2 w« ))=o 



(dies sind die Gleichungen (al), (a2) und (b’))> sowie für er 2 
a 2 =j(y-Xßy(y-Xß ) . 

(das ist Gleichung (c)). Also sind /3 t und ß 2 die OLS-Schätzer einer Regression von y auf die 
Spalten von X 1 , X 2 und W, und 6 2 das arithmetische Mittel der geschätzten Fehler dieser 
Regression. 

(5) X * 0, W * 0, cti 2 * cr 2 2 : Die Normalgleichungen sind (al), (a2), (b), (cl) und (c2). Da 
(b) alle Parameter enthält, aber nicht linear ist, läßt sich hier kein geschlossener Ausdruck für 
die ML-Schätzer angeben. Sie sind die ML-Schätzer des Modells 



y = Xß + u , u ~ N(0, Q), Q = 



V o ••• o A 



0 er/ 

S 1 

0 ••• 



0 <y 



mit X und ß wie in (4). Dieser Fall wird in Kapitel 4.2. 1.3 behandelt. 

Der maximale Wert der Log-Likelihood-Funktion, der für die später zu besprechenden 
asymptotischen Tests benötigt wird, läßt sich leicht berechnen als Wert der konzentrierten 
Log-Likelihood-Funktion an der Stelle (cfj , <j 2 ) bzw. er : 



max(log(/(y)) = 



- -(log(2^) + 1) - ylogcr, 2 - — logcr 2 , falls er, * cr 2 



-y(log(27r) + l + log<7 2 ) , 



falls <t 2 = cr 2 



Liegen noch Regressoren V 1 in Zustand 1 und V 2 in Zustand 2 vor, so sind diese Aussagen 
weiter gültig, wenn man in den obigen Ausdrücken X' durch (x' V') und /3,' durch 



(ßi'Yi') für i =1, 2 ersetzt, also z.B. in Fall (5) 

x=(x‘ V 1 X 2 V 2 w) und ß =[ß,' y,' ß 2 ' y 2 ’ a’)' • 
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4.2.1.3 Berechnung der ML-Schätzer für heteroskedastische Modelle mit 
regimeunabhängigen Parametern 



Für die praktische Berechnung der Schätzer in den verbleibenden Fällen, also (1) und (5), 
muß man auf iterative Verfahren zurückgreifen. Die ML-Schätzer für diese Modelle lassen 
sich im Prinzip mit den üblichen Verfahren zur Bestimmung (lokaler) Maxima nichtlinearer 
Funktionen bestimmen, vgl. hierzu Kapitel 4.3.1. Eine rechnerisch sehr einfache Alternative 
zu diesen Methoden ist eine Variante des Oberhof er-Kmenta-Verf ahr ens 64 , das im folgenden 
für die vorliegende Situation kurz dargestellt und erläutert wird. 65 

In Kapitel 4.2. 1.2 wurde gezeigt, daß sich in beiden hier betrachteten Fällen das Modell in 
der Form 



^ s 2 



y = ZS + u , u ~ N(0, Q), Q = 



o" 

0 



V 



0 



J S T J 



darstellen läßt (bei (1) mit Z = W und # = a , und bei (5) mit Z = X und 
$ = (j3,', ß 2 ', a')'). Die folgenden Ausführungen gelten also sinngemäß für beide Fälle. 

Dieses Modell ist ein verallgemeinertes Regressionsmodell mit unbekannter Varianz- 
Kovarianz-Matrix der Störvariablen, deren parametrische Form jedoch bekannt ist. Das Ober- 
hofer-Kmenta- Verfahren besteht darin, abwechselnd 

• die unbekannten Varianzen mit Hilfe der letzten geschätzten Regressionsparameter aus den 
geschätzten Fehlem für die jeweiligen Zustände zu berechnen und 

• die Regressionsparameter mit einer FGLS -(Feasible Generalised Least Squares -) 
Schätzung unter Verwendung der letzten geschätzten Varianzen zu berechnen. 

Eine FGLS-Schätzung ist eine GLS -(Generalised Least Sq uares-) S chätzung mit geeignet 
geschätzter Varianz-Ko varianz-Matrix der Störvariablen, d.h. allgemein gilt 
^ = (Z'Q- 1 Z)- 1 Z'Q- , y . 

Im vorliegenden Fall ist 



64 Vgl. hierzu Oberhofer und Kmenta [1974], Magnus [1978] und Greene [1997], S. 513 ff. 

65 Das Oberhofer-Kmenta-Verfahren ist wesentlich allgemeiner als hier dargestellt und läßt sich auch auf die 
ML-Schätzung anderer Formen von Heteroskedastie anwenden. Für autokorrelierte Fehlerprozesse führt es z.B. 
auf das Cochrane-Orcutt- Verfahren, vgl. COCHRANE und ORCUTT [1949]. 
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(61 



Q = 



0 



0 



und obiger FGLS-Schätzer berechnet sich zu 



2A 



wobei Z 1 , Z 2 , y 1 und y 2 wie in Kapitel 4.2. 1.2 definiert sind, also Zj = Z, , falls s t = 1, und 0 
sonst, und analog für Z 2 , y 1 und y 2 . (Dies ist äquivalent zu der Gleichung, die man erhält, 
wenn man in der Normalgleichung für S die Parameter a 2 und er 2 durch er 2 und cr 2 2 
ersetzt.) 

Da (z')'y' = (z i )'Z i $ i , wobei S l der OLS-Schätzer einer Regression für die Daten mit 
s t = i ist, gilt 

ß ( (z'}z' [ (z 2 )z 2 ^ {z')z'9' [ (z 2 )'z 2 a 2 ^ 



mit 



= (n‘ +n 2 )" 1 (n i ö i +n 2 s 2 ), 

n .,M 5. 2. 



Der Schätzer $ ist also das mit den Matrizen N' gewichtete Mittel der OLS-Schätzer aus 
den Regressionen über die Daten mit s t = /. Die Matrix N' ist die Inverse der geschätzten Va- 
rianz-Kovarianz-Matrix von S‘ (ohne Bereinigung um die Freiheitsgrade), d.h. der Schätzer 
mit der kleineren Varianz erhält ein größeres Gewicht in der Berechnung von & . 

In Anwendungen läßt sich $ am leichtesten mit Hilfe einer Regression von 



(£_) 




'Ix 






** 


y±_ 




Ix 




auf Z = 




y T 




±T 






\.6 St j 



berechnen, d.h. & ist der WLS -{Weighted Least Squares-)SchätzQi mit den Gewichten 
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Damit lauten die einzelnen Schritte des Oberhofer-Kmenta- Verfahrens: 

0. Bestimme einen Startwert für 8 , z.B. mit einer OLS-Schätzung. 

1 . Schätze damit die Fehlervarianzen durch 

a, 2 =^( y'-Z'dW-Z'S'),*-!,!. 

2. Berechne damit den oben erläuterten FGLS-Schätzer 8 . 

3. Wiederhole Schritte 1. und 2., bis ein vorher gewähltes Konvergenzkriterium erfüllt 
ist. 

In Oberhofer und Kmenta [1974] und Magnus [1978] wird gezeigt, daß das Verfahren für 
diesen Fall an der Stelle des ML-Schätzers konvergiert. 

Für den maximalen Wert der Log-Likelihood-Funktion gilt 

max(log(/(y)) = -y(log(2rc) + l)-ylogcr 2 -ylogo, 2 , 

wobei 6? und natürlich die ML-Schätzer darstellen. Das Verfahren läßt sich sehr leicht 
programmieren, wenn eine Routine für OLS-Schätzungen zur Verfügung steht. Es konver- 
gierte in verschiedenen Testrechnungen 66 zuverlässig nach wenigen Iterationen, die Likeli- 
hood wuchs in allen Beispielen bei jedem Iterationsschritt. 67 

4.2.2 Unbekannter Schwellenwert 

Bei einem Schwellenmodell mit unbekanntem Schwellenwert c muß dieser zusätzlich zu den 
übrigen Parametern aus den Daten geschätzt werden. Dabei tritt folgende Schwierigkeit auf: 
Die Likelihood weist Sprünge in c bei z 0 ,...,z r auf und ist konstant (in c) für Werte 
zwischen benachbarten Beobachtungen von z. Die Likelihood-Funktion ist also nicht nach c 
differenzierbar, und c ist lokal nicht identifiziert. In Anwendungen geht man deshalb wie folgt 
vor: Man berechnet die ML-Schätzer aus Kapitel 4.2.1 für die übrigen Parameter und den 
Wert der Likelihood für je einen festen Wert von c zwischen benachbarten Beobachtungen 
von z und gibt dann als Schätzung die Parameter, die der größten Likelihood insgesamt ent- 
sprechen, an. 

Ähnlich kann man bei verallgemeinerten Schwellenmodellen mit unbekannten Schwellen- 
werten vorgehen. Hier führt man eine Gittersuche über beide unbekannten Schwellenwerte 



66 Alle Berechnungen in dieser Arbeit wurden mit dem Softwarepaket RATS for Windows (v. 4.30) der Firma 
Estima (Evanston, USA) durchgefiihrt. 

67 Für den Fall weiterer Regressoren V 1 in Zustand 1 und V 2 in Zustand 2 gilt wieder der Hinweis am Ende von 
Kapitel 4.2. 1.2. 
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durch. Dabei tritt das Problem auf, daß die ersten Zustände nicht festgelegt sind, wenn die 
erste Beobachtung von z t innerhalb des interessierenden Beobachtungszeitraums zwischen 
den beiden gewählten Schwellenparametem liegt. 68 In diesem Fall kann man die Gittersuche 
verfeinern, indem man die ML-Schätzer für beide möglichen Startwerte von s t bestimmt. 69 

4.3 Mischlings- und Markov-Modelle 

In der älteren Literatur herrschte die Ansicht vor, daß auch für Modelle, in denen der jeweils 
herrschende Zustand nicht beobachtet werden kann, die Aufteilung der Stichprobenwerte auf 
die verschiedenen Zustände aus den Daten bestimmt werden müsse. 70 Mittlerweile hat sich 
der vor allem in den Arbeiten von Hamilton [1988 ff] vertretene Standpunkt durchgesetzt, 
daß auch in diesem Fall nur die Parameter zu schätzen sind, und zwar nach Möglichkeit nach 
der ML-Methode. Rückschlüsse auf die Abfolge der Zustände lassen sich anhand der geglät- 
teten Wahrscheinlichkeiten P(s t | y, X, W) ziehen, die aus den Parameterschätzem berechnet 
werden können. 71 

Im folgenden wird nach einigen einleitenden Bemerkungen über die stochastische Spezifi- 
kation des Zustandsprozesses die Likelihood-Funktion für Mischlings- und Markov-Modelle 
in verschiedenen Formen hergeleitet. Da Mischungsmodelle spezielle Markov-Modelle sind, 
wird zuerst auf letztere eingegangen und dann die Likelihood-Funktion für erstere als Spezial- 
fall gewonnen. 

Die maximale Laglänge sei wieder m. Die verzögert endogenen Variablen seien in den 
Regressoren X und W enthalten. Um die Ausführungen übersichtlich zu halten, werden fol- 
gende Notationen verwendet: 

S ( = ,^/-l5...>*^l), 

Y, = (y,,y,. v -,y l ,y 0 ,-,y- m A 

Es ist also St = s. Über den Zustandsprozeß werden folgende Annahmen gemacht: Die Folge 
s h t = l,...,r, ist eine (nicht notwendig homogene oder stationäre) Markov-Kette 1. Ordnung 



68 Dieses Problem kann auch bei verallgemeinerten Schwellenmodellen mit bekannten Schwellenwerten auftre- 
ten. 

69 Konsequenter wäre es, hier auch die Startverteilung des Zustandsprozesses durch einen weiteren freien Para- 
meter zu beschreiben und diesen wie bei homogenen Markov-Modellen nach der ML-Methode aus den Daten zu 
schätzen. Damit verließe man aber den Rahmen, der für Schwellenmodelle üblich ist. Hier zeigt sich noch ein- 
mal die Verwandtschaft zwischen Markov- und verallgemeinerten Schwellenmodellen. 

70 Vgl. z.B. SCLOVE [1983] und Tyssedahl und Tjostheim [1988]. 

71 Vgl. dazu Kapitel 4.3 .2.1, besonders S. 56, und Anhang A. 
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mit Zustandsraum {1, 2}. Die Übergangswahrscheinlichkeit P(sJs M ) wird vollständig von 
der exogenen Größe z t determiniert: 72 

Die Übergangswahrscheinlichkeit P(s t \s t _ l ,z t ) ist für jedes z t eine (2 x 2) -Matrix mit zwei 
freien Größen. Wählt man dafür p]\z t ) und p 22 (z t ), so muß man für die Spezifikation des 
Modells noch geeignete funktionale Formen für diese Größen vorgeben, z.B. logistische 
Funktionen 73 

phY\+*\ „ZtYi+Si 

p ' 1(z ' )= TT^r und 1+e ^s, ■ 

Die freien Parameter sind in diesem Fall y\ , ji , d x , S 2 und die Startwahrscheinlichkeit 
P(^i). 74 Ist s t homogen, so gilt 

/>,"(*,) -p" und pf\z t )^p 22 für r= i,...,r. 

Die freien Parameter sind hier p n und p 22 . Ist die Kette nicht stationär, so kommt noch die 
Startwahrscheinlichkeit P(s\) hinzu. 

Die Parameter dieser Modelle sind nicht strikt identifiziert: Vertauscht man alle Parameter 
eines Modells mit den jeweils entsprechenden des anderen Zustandes, so erhält man eines mit 
der gleichen Wahrscheinlichkeitsdichte, das sich für den Beobachter also nicht von dem 
ursprünglichen Modell unterscheiden läßt. 75 Diese Austauschbarkeit ist aber für empirische 
Anwendungen nicht bedeutsam: Sie läßt sich beseitigen durch eine geeignete Identifizierung 
eines der beiden Zustände etwa als denjenigen, für den ein bestimmter regimeabhängiger 
Parameter kleiner (oder größer) als der entsprechende des anderen Zustandes ist. 76 

Für eine beliebige Realisation des Zustandsvektors s eines inhomogenen Markos-Modells 11 
gilt 



72 Diebold, Lee und Weinbach [1994] machen die Übergangswahrscheinlichkeit von z M abhängig. Dies ist 
aber nur eine Frage der Definition von z,. 

73 Unter den verschiedenen möglichen Funktionstypen hat die logistische Funktion bestimmte rechnerische 
Vorteile, die in Kapitel 4, Anhang B, erläutert werden, weswegen sie hier zugrunde gelegt wird. Eine Diskussion 
anderer Funktionstypen findet sich in LEE [1991]. 

74 Statt der Größe z kann auch ein vektorieller Indikator Z = (z lv .., z m ) die Übergangswahrscheinlichkeiten 
bestimmen. Dann wären in allen Formeln z t y\ und z,y 2 zu ersetzen durch Z,yi und Z,y 2 mit Vektoren 
Y\ = (ru,..., 7i,«) und y 2 = (y 2) i,..., Y 2 ,m)- 

75 Die Likelihood-Funktion hat dementsprechend auch immer zwei Maxima gleicher Höhe an den korrespondie- 
renden Stellen. 

76 Die Parameter sind also lokal identifiziert. 

77 Die entsprechenden Größen für homogene Modelle unterscheiden sich von den im folgenden angegebenen nur 
dadurch, daß der Zustandsindikator z nicht auftritt. 
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/(y,s|X,W,r o ,z) 

= f(X T ,s T | x,w,y 0 ,z) 

= f(y T I r M ,s T ,x,vr,z)P(s T \ r r .„s M ,x, w,z) 

• /(r r . 1; 5 r . 1 |x,w,y 0> z). 

Aufgrund der getroffenen stochastischen Annahmen lassen sich die ersten beiden Terme 
ersetzen, und man erhält 

/(y,s|X,W,y 0 ,z) 

= /Or U r ,X r ,W r )P(s T | , z T )/(T r _, , S T _ t | X, W, F 0 ,z). 

Löst man den letzten Term sukzessive auf diese Weise auf, so erhält man schließlich 
/(y,s|X,W,T 0 ,z) 

n/(y, U„X„ W, )/>(*, | W,)W. I»„X 1 ,W i )P(j i |T„,X,W,z). 

/= 2 ) 

Alle Terme bis auf den letzten lassen sich durch die Parameter und die beobachteten Größen 
ausdrücken. Anstatt den letzten Term noch durch (Summen von) Übergangswahrscheinlich- 
keiten, bedingte Dichten von y und die Startwahrscheinlichkeiten P(si) auszudrücken, ist es 
auch möglich, die bedingte Startwahrscheinlichkeit P(s l = 1|}£,X, W,z) direkt als freien Pa- 
rameter zu verwenden. Sei also 

p 1 "\J po, = i|y 0 ,x,w,z)"| 
l-p'J Ip(^ = 2|T 0 ,X,W,z)J ' 

Damit läßt sich der obige Ausdruck für /(y,s|X,W,}£,z) vollständig aus den Daten und den 
Parametern berechnen. Die gesuchte Likelihood-Funktion ergibt sich jetzt, indem man die 
Summe aller dieser Ausdrücke für verschiedene Realisationen des Zustandsvektors s bildet: 
/(y|X,W,T 0 ,z) 

=£/(y> s l x > w > r »’ z ) 

s 

n/(T,k,,X,,W,)P(s,| Vl ,z,)l/(y l |s 1 ,X 1 ,W l )P(s 1 |F 0 ,X,W,z) . 

(=2 ' 

Dieser geschlossene Ausdruck für die Likelihood-Funktion ist für theoretische Überlegungen, 
nicht aber für die praktische Ermittlung des Wertes der (Log-)Likelihood-Funktion an spezi- 
ellen Parameterwerten geeignet, da zu seiner Berechnung die Summation über alle möglichen 
2 t Zustände erforderlich wäre, so daß auch für moderate Zeitreihenlängen die Anzahl der 
nötigen Rechenschritte selbst mit schnellen Computern sehr hohe Rechenzeiten ergäbe. Es 
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gibt aber Verfahren, den Wert der (Log-)Likelihood-Funktion mit deutlich weniger Rechen- 
aufwand zu ermitteln, z.B. das rekursive Verfahren von Cosslett und Lee [1985]: 78 Sei 
Qto) = f(X,s l ) . 



Es gilt 



ß,(O = I/0U>*M) 

= L/C v l ,5 l |r H ,j M )ß-i(^) 

s i-i 

= 2/0', I Y,- l ,s,,s,_ l )P(s l | 

s t- 1 

= 2 / 0 ', I I 5 M )ß M (i M ) • 

s t- 1 



Dieser Ausdruck enthält neben leicht aus den Daten berechenbaren Größen nur den Wert 
ß_i(j,_i) , der im letzten Rekursionsschritt berechnet wurde. Die Rekursion beginnt mit 



filO) = /O,,*,) = /Ol I i) 

und endet mit der Berechnung von Q T (s T ) , woraus man schließlich das gesuchte 
/(y) = f (y^ = X/Ov^r) = ^ Qt( s t) 

S T S T 

erhält. 

Eine Alternative zu diesem Verfahren ergibt sich aus der für jede Zeitreihe gültigen Bezie- 
hung 

/(y)=(rj/o,iJ;- 1 ))/o 1 ) • 

Es gilt 

/Oi) = E/o, k.) . 

* 



und die Größen f(y t |^ ) lassen sich zum Beispiel mit dem in Anhang A beschriebenen 
Filter berechnen, der Teil des in Kapitel 4.3.2 erläuterten EM-Algorithmus ist. 79 

Inhomogene Mischungsmodelle ergeben sich aus inhomogenen Markov-Modellen durch 
die Restriktionen y x = -y 2 und <5j = -<5 2 , falls die Übergangswahrscheinlichkeiten logistische 
Funktionen von z t sind. Es gilt dann nämlich 



78 Für den Rest des Kapitels werden die vorherbestimmten Größen in der Notation nicht mehr berücksichtigt. 

79 Vgl. hierzu auch GRAY [1996], Appendix. 
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e y\h+Z\ 

l+e m * Sl 



e -r22, + s 2 
l + g-rrt^j 



1 



g/2^+52 

l + e 1 '> z '- ,ä > 



= 1 -p?\z,) = p',\z l ). 



Sinnvollerweise wird man in diesem Fall P(s t = 1|1J,X, W,z) nicht mehr als freien Parameter 
modellieren, sondern die zusätzliche Restriktion 

^ 1 = i|r 0 ,x,w,z) = fl "( Zl ) 

einfiihren, so daß für alle t = 1 gilt 

P(s, =l|z,) = p,"(z,) . 

Das Modell verwendet dann die zwei freien Parameter y x und 5, für den Zustandsprozeß. Es 
gilt hier 

/(y|X,W,r 0 ,z) 

=z n/0',k.x„w,)/>(,iz, ) 

s M = 1 ' 

= n(/0',k, = 1,X„W ,)P(s, = 1| z,) + f(y,\s, = 2, X„W, )/>(*, = 2|z,)) 

f=l 

Eine derartige Produktdarstellung (bzw. Summendarstellung für die Log-Likelihood), die die 
Arbeit mit Mischungsmodellen sehr vereinfacht, existiert für (echte) Markov-Modelle nicht. 80 

Da die Normalgleichungen für Mischungs- und Markov-Modelle nicht linear sind, läßt sich 
kein geschlossener Ausdruck für die ML-Schätzer als Funktion der beobachteten Größen an- 
geben. Deswegen muß man auf iterative Verfahren zurückgreifen, die, beginnend mit vorge- 
gebenen Startwerten (die eventuell mit Hilfe eines Gittersuchverfahrens gewonnen werden), 
nach einem vorgegebenen Algorithmus schrittweise neue Parameterwerte berechnen, bis ein 
vordefiniertes Abbruchkriterium erfüllt ist. Im folgenden wird eine kurze Übersicht über her- 
kömmliche Iterationsverfahren, die hier als numerische Verfahren bezeichnet werden, gege- 
ben. Anschließend wird eine weitere Methode - der sogenannte EM-Algorithmus -, die sich in 
Anwendungen als besonders vorteilhaft erwiesen hat, erläutert. 



4.3.1 Numerische Maximierung der Likelihood 

Die meisten herkömmlichen Verfahren 81 benutzen (analytisch oder numerisch berechnete) 
Ableitungen 1. und 2. Ordnung für die Berechnung der jeweils folgenden Parameterwerte. 



80 Goldfeld und Quandt [1973] gingen noch von einer solchen Produktdarstellung aus. Ihr Ausdruck für die 
Log-Likelihood-Funktion (Gleichung (13), S. 8) ist aber falsch. 

81 Ein Überblick über numerische Verfahren findet sich z.B. in JUDGE u.a. [1985], Appendix B, oder Hamilton 
[1994b], Kap. 5.7. 
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4 ML-Schätzung 



Man bezeichnet sie deshalb als Gradientenverfahren. Sie benutzen die Ableitungen der Log- 
Likelihood-Funktion, um eine Richtung mit wachsendem Funktionswert zu bestimmen, in der 
der nächste Parameterwert gewählt wird. Am häufigsten verwendet werden das Newton- 
Raphson-, das Gauss-, das DFP-(Davidson-Fletcher-Powell-) und das BHHH-(Bemd-Hall- 
Hall-Hausmann-) Verfahren und verschiedene Varianten davon. 

Ohne Ableitungen kommt der Simplex-Algorithmus aus, bei dem zur Bestimmung der 
nächsten Parameterwerte die Werte der Likelihood-Funktion an den Ecken eines Simplexes 
im Parameterraum um den letzten Parameterwert bestimmt werden. Bei diesem Algorithmus 
wird in jedem Schritt die Ecke mit dem niedrigsten Funktionswert durch die Ecke ersetzt, die 
man erhält, wenn man sie an der Hyperebene durch die übrigen Ecken spiegelt. 

Ein Vorteil der Gradientenverfahren, für die es in vielen Softwarepaketen vorgefertigte 
Prozeduren gibt, ist, daß sie an einem Konvergenzpunkt, an dem die Iteration abgebrochen 
wird, automatisch Schätzer für die asymptotische Varianz-Kovarianz-Matrix der Parameter 
liefern, vgl. z.B. Hamilton [1994b], S. 143 f., oder Gourieroux und Monfort [1995a], 
S. 185 f. Diese können für asymptotische Tests von Hypothesen über die Parameter verwen- 
det werden. 

Für Mischungsverteilungen lassen sich solche Verfahren in den gängigen Softwarepaketen 
leicht implementieren, da die Likelihood-Funktion für sie eine einfache Produktgestalt hat. 
Für Markovmodelle, bei denen solch eine Darstellung nicht existiert, kann man auf eine re- 
kursive Darstellung der Likelihood-Funktion zurückgreifen, wenn die verwendete Maximie- 
rungsprozedur rekursive Programmierung gestattet. 82 

4.3.2 Der EM- Algorithmus 

Eine Alternative zu numerischen Verfahren ist der EM -(Expectation-Maximisation-) 
Algorithmus. Er stellt ein iteratives Verfahren dar, mit dem ML-Schätzer für Modelle berech- 
net werden können, in denen die Wahrscheinlichkeitsdichte beobachteter Variablen von un- 
beobachteten ( latenten ) Größen (wie hier dem Zustandsprozeß z) abhängt, so daß die voll- 
ständige Likelihood-Funktion ein Integral (oder eine Summe) solcher Wahrscheinlichkeits- 
dichten über alle möglichen Realisierungen der unbeobachteten Größen ist. 83 Der EM- 
Algorithmus in allgemeiner Form wurde, aufbauend u.a. auf Baum u.a. [1970], von 



82 Wie etwa die Prozeduren maximize in RATS oder maxlik in GAUSS. 

83 Gelegentlich wird der EM-Algorithmus als Alternative zu ML- Verfahren bezeichnet. Dies ist nicht korrekt: 
Der EM-Algorithmus ist eine Methode zur Berechnung der ML-Schätzer, ebenso wie die hier als numerische 
Verfahren bezeichneten, mehrheitlich auf der Verwendung von Ableitungen der (Log-)Likelihood-Funktion 
basierenden Algorithmen. 
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Dempster, Laird und Rubin [1977] eingeführt. 84 Sie identifizierten verschiedene zu diesem 
Zeitpunkt bekannte Verfahren zur Bestimmung von ML-Schätzem in Modellen mit latenten 
Variablen als Spezialfälle des EM- Algorithmus. Außer für Mischungs- und Marko v-Modelle 
wird der EM-Algorithmus in der ökonometrischen Praxis noch für die Schätzung anderer 
Modelltypen verwendet, darunter insbesondere für Zustandsraummodelle. 85 Hier stellt der 
Zustandsvektor die latente Größe dar. 

Die Größen Y seien beobachtbar, nicht jedoch die latenten Variablen S. Das Ziel des Ver- 
fahrens ist, die Likelihood-Funktion 

l°g/(Y;A) = log J/(Y,S;A)üfS 

S 

zu maximieren, wobei X die unbekannten Parameter des Modells darstellt. 86 Anstatt dieses 
Integral zu maximieren, werden Integration und Maximierung im EM-Algorithmus gewis- 
sermaßen in zwei Schritte aufgespalten, den E-Schritt und den M-Schritt: 

Im E-Schritt wird die momentan "beste” Schätzung des Parameters, X^ n \ verwendet, um den 
bedingten Erwartungswert von log/(Y,S;A) (der Complete-Data Log-Likelihood) gegeben 
Y zu berechnen. Sei also 

Q(X | Y;A W ) = £(log/(Y,S;A) | Y;A W ) = J(log/(Y,S;A))/(S | \;X M )dS . 

Im M-Schritt wird der neue Schätzer für X als der Wert berechnet, der diesen Erwartungswert 
maximiert, d.h. 

X (n+1) = argmax A Q(X | Y;A (w) ) . 

Statt log/(Y;A) wird also gewissermaßen die zum momentanen Kenntnisstand (Y, A (w) ) plau- 
sibelste Approximation (die bedingte Erwartung) maximiert. 

Hamilton [1991] maximiert statt dessen 

ß'(Ä | Y;A W ) = J(log/(Y,S;A))/(S,Y;A ( ” ) )c® . 

s 

Dies führt auf den gleichen Algorithmus: Es gilt 

Q'(X | Y\X {n) ) = f(Y;X (n) )Q(X | Y;X (n) ) , 

deswegen nehmen beide Funktionen ihr Maximum bei demselben Wert für X an. 



84 Vgl. auch Ruud [1991] und GOURIEROUX und MONFORT [1995a], Kap. 13.3. 

85 Vgl. hierzu ENGLE und WATSON [1983]. 

86 Ist S diskret, so bedeutet das Integral in obigem Ausdruck die Summe über alle möglichen Werte von S. 
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4 ML- Schätzung 



Der EM- Algorithmus besteht nun darin, daß erst ein Startwert A (0) gewählt und damit durch 
abwechselnde Ausführung von E- und M-Schritten eine Folge von Parametern A (0) , A (1) , A (2) ... 
ermittelt wird. Diese Sequenz hat die folgende wichtige Eigenschaft: 87 
log / ( Y ; A, ( " +1) ) > log /( Y; A, (n) ) . 

Solange, bis die Parameterfolge konvergiert, fuhrt also jeder Iterationsschritt zu einem höhe- 
ren (oder wenigstens zu dem gleichen) Wert der (Log-)Likelihood. Weiter gilt, daß, falls die 
Folge konvergiert, der Grenzwert die Normalgleichungen der (Log-)Likelihood-Funktion 
erfüllt. 88 

In Anwendungen kann man also lokale Maxima der (Log-)Likelihood-Funktion nähe- 
rungsweise bestimmen, indem man geeignete Startwerte bestimmt und dann mit dem EM- 
Algorithmus solange iterativ weitere Parameterwerte berechnet, bis ein vordefiniertes Kon- 
vergenzkriterium erfüllt ist, z.B. bis die letzte absolute Veränderung der Parameter (in der 
euklidischen oder einer anderen Norm gemessen) oder der (Log-)Likelihood-Funktion eine 
vorgegebene Schwelle unterschreitet. 

Das Verfahren ist dann vorteilhaft, wenn sich Q(X | Y;A (n) ) im Vergleich zur Log- 
Likelihood-Funktion leicht maximieren läßt, wie es häufig (und besonders für Markov- 
Modelle) der Fall ist. 

Daß man bei diesem Verfahren das globale Maximum findet, ist allerdings nicht sicherge- 
stellt. Dieses Problem teilt der EM- Algorithmus mit anderen iterativen Verfahren zur Be- 
stimmung des Maximums der Log-Likelihood-Funktion. Empirische Anwendungen haben 
aber übereinstimmend ergeben, daß der EM-Algorithmus sehr stabil ist, d.h. daß er unabhän- 
gig von der Wahl der Startwerte in den allermeisten Fällen den gleichen Konvergenzpunkt 
erreicht, während andere Iterationsverfahren (je nach Startwert) häufig an Punkten mit niedri- 
gerem Wert der Log-Likelihood konvergieren. 89 

Im folgenden wird die spezielle Form des EM-Algorithmus für Marko v- und Mischungs- 
modelle erläutert. Der EM-Algorithmus für Markov-Modelle mit exogenen Regressoren wur- 
de zuerst von Lindgren [1978] präsentiert. 90 Diese Arbeit fand jedoch in der Folgezeit kaum 



87 Vgl. DEMPSTER, LAIRD und RUBIN [1977], S. 7, Theorem 1, und HAMILTON [1990], S. 48, Observation 1. 

88 Vgl. HAMILTON [1990], S. 49, Observation 2. 

89 Der EM-Algorithmus ist in der Nähe eines Konvergenzpunktes verhältnismäßig langsam (d.h. er benötigt dort 
viele Iterationen für geringe Veränderungen der Parameterwerte), weshalb manche Autoren empfehlen, nur die 
ersten Iterationsschritte mit dem EM-Algorithmus zu berechnen und den Durchlauf dann mit einem anderen 
Iterationsverfahren (schneller) zu beenden. 

90 Kiefer [1980] stellte, aufbauend auf Behboodian [1970], aber offensichtlich ohne Kenntnis der Arbeiten von 
Dempster, Laird und Rubin [1977] und Lindgren [1978], einen iterativen Algorithmus zur Bestimmung der 
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Beachtung, bis Hamilton [1990] ihn auf den Fall von Zeitreihenmodellen mit zugrunde 
liegender homogener Markov-Kette verallgemeinerte. Die erste Darstellung für inhomogene 
Markov-Modelle (ohne autoregressive Dynamik oder exogene Größen) stammt von Diebold, 
Lee und Weinbach [1994]. 

4.3.2. 1 DerE-Schritt 

Die im folgenden angegebenen Wahrscheinlichkeitsdichten sind wieder als "gegeben X, W 
und z” zu verstehen, was nicht mehr ausdrücklich notiert wird. Dagegen ist es hier nötig, den 
Parameter anzugeben, an dem die Likelihood-Terme ausgewertet werden. Dafür werden alle 
Parameter des jeweiligen Modells (Regressionsparameter und solche, die die Verteilung des 
Zustandsprozesses festlegen), in dem Vektor X zusammengefaßt. 

Für Markov-Modelle gilt 

log /(y , s\\) = Yj 1o s f(y, k ; A) + £ log P(s, | s M ; A) + log ; A) . 

f=l t=2 

Daraus erhält man 
ß(A|y;A‘">) 

= £(log/(y, S ;A)|y;A«) 

= X f Z lo 8 f(y> k 1 A) + £ log p k I s ,-i ; A) + log P(s, ; X) Ws l y ; X (n) ) 

= l[l>g f(y, I s, ; X)P(s I y ; X M ) j 
+ z(l 'og p ( s < I »M ; A)^(s I y; A (n> ) j + £ log P(s t ; x)P( ■ | y; a<">) . 

In jedem Summanden dieser Summe hängt der erste Faktor nur von einem bzw. zwei Zustän- 
den s t ab. Deshalb kann man die Summation über die jeweils anderen Zustände sofort ausfüh- 
ren und erhält 

t ( 

ß( A I y;A w ) = Z E log/O, I s,;X)P(s, I y;A<”>) 

/=1 s , 

T ( \ 

+ S Ilogi’k I s, A -X)P{s„s,_ x | y;X M ) + '£] og P(s l ;X)P{s l | y;A w ). 

t=2 ) *1 

Für Mischungsmodelle ergibt sich analog 



ML-Schätzer für homogene Mischungsmodelle vor. Dies ist der EM-Algorithmus für diese Modelle in einer 
etwas ungewöhnlichen Formulierung. 
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4 ML-Schätzung 



Q{X |y;A (M) ) = X EN/O* \s ( ;V + logP(s t ;X))P(s t |y;A, ( ">) 



r=l v *, ; 

Die im M-Schritt zu maximierende Funktion Q{X | y;X (n) ) besteht demnach aus den Termen, 
die die Log-Likelihood-Funktion bilden, gewichtet mit den bedingten Wahrscheinlichkeiten, 
mit denen die Zustandsvariable(n) s t die jeweiligen Werte angenommen hat. Für Markov- 
Modelle ist Q(X | y; A (w) ) die Summe von 2 T + 4 (T -l) + 2 = 6T-2 Produkten aus je 2 Fak- 



toren, was eine deutliche Vereinfachung gegenüber der Likelihood-Funktion darstellt, die aus 
einer Summe von 2 T Produkten aus je 2 T Faktoren besteht. Für Mischungsmodelle sind 
Q(X | y;X (n) ) und die Produktform der Likelihood etwa gleich komplex. 

Für den E-Schritt werden demzufolge die bedingten oder geglätteten Wahrscheinlichkei- 
ten 91 der Zustandsvariablen 



P(s, | y;X n) ) 

und für Markov-Modelle auch die bedingten gemeinsamen Wahrscheinlichkeiten aufeinan- 
derfolgender Zustandsvariablen 

*(*„*,-, |y;A. w ) 



benötigt. Insbesondere die geglätteten Wahrscheinlichkeiten sind unabhängig vom EM- 
Algorithmus interessant: Ist ein Schätzer für X (etwa der ML-Schätzer), gestatten sie 
Rückschlüsse von den vorliegenden Informationen (den beobachteten Größen) auf die unbe- 
obachtbaren Zustände. Ist z.B. P(s t =l|y;A, (n) ) groß (in der Nähe von 1), so wird man mit 



großer Wahrscheinlichkeit davon ausgehen können, daß s t = 1 gegolten hat und umgekehrt. 
Die geglätteten Wahrscheinlichkeiten werden aber auch zur Bestimmung von Prognosen mit 
minimalem mittleren quadratischen Prognosefehler benötigt. 92 

Für Mischungsmodelle ohne verzögert endogene Regressoren lassen sich diese Größen 
leicht berechnen. Hier gilt 



91 HAMILTON [1990] bezeichnet sie als smoothed probabilities. Dieser Ausdruck hat sich seitdem in der Literatur 
durchgesetzt. 

92 Vgl. hierzu Kapitel 8.2. 
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r . S/Ä.v) 

m) fVr) 

= S -£ü— - 

t '= 1 

n(/0'.^,= 1 i^.) + /(x^,=2i^))/0', i5„y M )^) 

t'*t 



fl/öviw 

f=l 



t'*t 



/*=i 

/Q',l»„l l )m) /(y, |j„^-,)f(j,) 

Ry,\Y,. x ) Y J f(y,\sMP(.s l j 

s,.= 1,2 



In dem letzten Ausdruck stehen nur Größen, die sich direkt aus den Daten berechnen lassen. 
Diese Ableitung macht entscheidend von der Produktdarstellung der Likelihood Gebrauch. Da 
eine vergleichbare Darstellung für Markov-Modelle nicht existiert, ist die Berechnung der 
geglätteten Zustandswahrscheinlichkeiten in diesem Fall ungleich komplizierter als für 
Mischungsmodelle. Hamilton [1990] hat ein rekursives Verfahren angegeben, mit dem die 
gesuchten Größen für Markov-Zeitreihenmodelle berechnet werden können. 93 Es wird im 
Anhang A zu diesem Kapitel in einer leicht modifizierten Form wiedergegeben, die für 
Modelle ohne autoregressive Dynamik geeigneter ist. Die Darstellung lehnt sich an Diebold, 
Lee und Weinbach [1994] an und korrigiert einen Fehler in ihrem Algorithmus. 

Hamilton nutzte in seiner Herleitung des E-Schritts des EM- Algorithmus die Verwandt- 
schaft zwischen Markov- und Zustandsraummodellen (vgl. Kapitel 2.4.2). Deswegen ist es 
nicht verwunderlich, daß eine starke Analogie zwischen dem Kalman-Filter , mit dem auf den 
Wert des Zustandsvektors eines Zustandsraummodells für gegebene Werte der beobachtbaren 
Variablen und der Parameter geschlossen werden kann, und dem E-Schritt des EM- 
Algorithmus besteht. 94 



93 Vgl. hierzu auch KIM [1994]. 

94 Vgl. hierzu ENGLE und WATSON [1983]. 
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4 ML-Schätzung 



4.3.2.2 DerM-Schritt 



Im M-Schritt ist der Wert für X gesucht, der 

Qß | y;A<">) = fl £(log/(y ( | 5„X„ W,;A) + log P(s, | z,ß))P(s, | y;A ( ">) 



(für Mischungsmodelle) bzw. 

Qß | y;A w ) = fl 2>g/(y, | s„X„W,ß)P(s, | y;A (n) ) 



'=1 V ^ 
t( 



+ £ ^logP(s, | s,_ t ,z,ß)P(s,,s l _ 1 1 yß (n) ) 
f «2 ^„5,-1 

+ Xlogi , (^;A)^ 1 |y;A w ) 

*1 

(für Markov-Modelle) maximiert. Dieser wird bestimmt, indem die zugehörigen Normalglei- 
chungen nach diesen Parametern aufgelöst werden. 



4.3.2.2.1 Die Normalgleichungen für die Regressionsparameter und die Störvarianz(en) 

Die Normalgleichungen für a, ßu ß 2 , G\ und 02 bzw. <7 erhält man durch Differentiation von 
Q(X | y;/t (n) ) nach diesen Parametern, die nur in den Termen 

log f(y, I ^,X„W,;A) = -llog(2;r) - log (a„ ) - ^ ~ W '“ ~ X,ßs ' )2 

2 2G S t 

(für t = 1,..., T) auftreten. Man erhält z.B. folgende Normalgleichung für ß l : 

SQß\yß w ) _ 0 

dß, 

fx,\y,-W,a-X,ß l )P(s, = l|y,A ( ">) = 0 . (al) 

/=1 

Diese und die übrigen Gleichungen sind völlig analog zu den Normalgleichungen für 
Schwellenmodelle aus Kapitel 4.2.1. Die dort auftretenden Terme für die beiden Zustände 
werden hier gewichtet mit den geglätteten Wahrscheinlichkeiten für diese Zustände. Bis auf 
diesen Unterschied entspricht der M-Schritt des EM-Algorithmus im wesentlichen der Be- 
rechnung von ML-Schätzem für beobachtbare Zustände. Anders gesagt: Ersetzt man in den 
Normalgleichungen des M-Schrittes die geglätteten Wahrscheinlichkeiten P(s t =l|y;A (n) ) 



durch 



fl falls z. <c 
° c (Z ' ) = }0 falls z,>c 
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und P(s t = 2 1 y,A (w) ) durch 1 -D c (z t ), so erhält man die Gleichungen aus Kapitel 4.2.1. Die- 
ser Zusammenhang resultiert aus der Tatsache, daß Schwellenmodelle spezielle inhomogene 
Markov- bzw.- Mischungsmodelle sind (nämlich solche, bei denen die Übergangs- bzw. die 
Aufenthaltswahrscheinlichkeiten p) x (z t ) und pf 2 (z t ) Stufenfunktionen von z t sind). 95 



4.3.2.2.2 Berechnung der neuen Regressionsparameter und Störvarianz(en) durch 
Hilfsregressionen 

Der M-Schritt läßt sich ähnlich wie eine ML-Schätzung für Schwellenmodelle mit Hilfe von 
Einfachregressionen berechnen. Da hier aber Zeitreihen de Länge 2 T verwendet werden müs- 
sen, unterscheiden sich die Formeln von denen aus Kapitel 4.2. 1.2. 

Sei X' die Matrix, deren Me Zeile XJ gleich X, P(s t = i | y,A ( ” } ) (/ = 1,2). Analog seien 
W 1 , W 2 , y 1 und y 2 definiert. Mit diesen Bezeichnungen lauten die Normalgleichungen 

X(X;y(^ 1 -W/cx-Xl/3 1 ) = 0 , (al) 

M 



X (X 2 )' (yf - W, 2 a -Xjß 2 ) = 0 , 

<= i 

^ (W^J^fl-Xlft) | ^ (W f 2 y(y / 2 -W r 2 a-X ^ 2 ) _ 0 

t=\ ^1 t=\ 



(a2) 

(b) 



I(W, ')'(*' - W/a -XJW + EWW -W>-X, 2 /3 2 ) = 0 

/=1 M 



(b’) 



T 







]>>(*, =l|y,A ( ">) 



t = 1 



Etf- W?a-X>ß 2 ) 2 

.2 __M 

f,P(s,= 2|y,A<">) 



/=1 



<7 



2 



_1_ 

T 



2>;-W;a-X:/3,) 2 +i>, 2 



W Ja-X]ß 2 f 



(cl) 



(c2) 



(c) 



Man erhält für die in Kapitel 4.1 unterschiedenen Fälle: 



95 Vgl. Kapitel 2.2.2. 
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4 ML-Schätzung 



(1) X = 0, cti 2 * a 2 \ Es sei 

Die Normalgleichungen sind äquivalent zu denen des Modells 
y = Wa +u,u~ N(0, Q), Q = 

Dieser Fall wird in Kapitel 4.3. 2.2.3 behandelt. 

(2) X * 0, W = 0, cti 2 = ö 2 2 : Die Normalgleichungen sind (al), (a2) und (c). Die Gleichun- 
gen (al) bzw. (a2) sind die Normalgleichungen von separaten Regressionen von y 1 auf X 1 
bzw. von y 2 auf X 2 . Anders gesagt: 



(7*1 0 

0 a?L ' 



Sei 





und y wie oben. Dann sind (al) und (a2) die Normalgleichungen für ß des gewöhnlichen 
linearen Modells 

y = Xj3+u,u~N(0, 0*1) . 

Also sind ß{" +,) und ß ( 2 " +,) die OLS-Schätzer einer Regression von y auf X , d.h. 

(ß("+ 

„U = ß ( "*' } = (X'X) _1 X'y . 

\P 2 J 



Der gesuchte neue Parameterwert 

<r ' } =^(y-X/3)'(y-X/3) = 2^(y - Xß)'(y - Xß ) j 
ist hier das Doppelte des ML-Schätzers für a aus der Hilfsregression. 

(3) X * 0, W = 0, di 2 * 02 2 : Die Normalgleichungen für ß l und ß 2 sind wieder (al) und 
(a2). Also sind j3, ( ” +1) und ß^ +l) dieselben wie bei (2). Die Normalgleichungen für a\ und 02 
sind (cl) und (c2). Es gilt 

ctP =j(y'-x'ßry(y'-x- ß r > ), i= 1 . 2 . 

(4) X * 0, W * 0, < 7 i 2 = 02 2 : Die Normalgleichungen sind (al), (a2), (b’) und (c). Sei y wie 
oben, 

f ß> ) 

und ß = ß 2 . 
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Dann sind die Normalgleichungen für ß die des Modells 
y = X/3+u,u~N(0, 0*1) , 
d.h. 

( ß( n+l A 



ß(n + l) 



= ß( n+l) = (X'Xy^X'y . 



(«+!) 

Für < 7 2 gilt 



(M+l) 



= 2j^(y-X/3<” +,, )'(y-X/3 ( " +1 >) 



(5) X * 0, W * 0, Gi 2 * 02 2 : Die Normalgleichungen sind (al), (a2), (b), (cl) und (c2). Da 
(b) alle Parameter enthält, aber nicht linear ist, läßt sich hier kein geschlossener Ausdruck für 
die neuen Parameterwerte angeben. Sie sind die ML-Schätzer des Modells 



y = Xß + u , u ~ N(0, Q), Q = 



'G? I 

0 



0 

g\Ij 



Dieser Fall wird im folgenden Kapitel behandelt. 9 ' 



4.3.2.23 Berechnung der neuen Regressionsparameter und Störvarianz(en) für 
heteroskedastische Modelle mit regimeunabhängigen Parametern 

Die Normalgleichungen des M-Schrittes für Fall (1) und für (5) sind die von linearen Mo- 
dellen der Form 

y = Zy + u , u ~ N(0, Q), Cl = 

Hier läßt sich wieder das Oberhofer-Kmenta- Verfahren aus Kapitel 4.2. 1.3 verwenden (oder 
ein anderes numerisches Verfahren). Krolzig [1997] schlägt in einer ähnlichen Situation vor, 
nicht Q(X\y;X <n) ) zu maximieren, d.h. ML-Schätzer von Hilfsmodellen zu berechnen, son- 
dern statt dessen die GLS-Schätzer für diese Hilfsmodelle zu verwenden (also nur den ersten 
Schritt des Oberhofer-Kmenta- Verfahrens durchzuführen). 97 Dieser Vorschlag führt auf einen 
sogenannten Verallgemeinerten EM-Algorithmus ( Generalised EM-Algorithm) im Sinne von 
Dempster, Laird, Rubin [1977] und Ruud [1991]. Diese Autoren zeigen, daß die wesentli- 
chen Eigenschaften des EM-Algorithmus (vgl. S. 54) bestehen bleiben, wenn im M-Schritt 



c^I 

0 



0 



96 Für den Fall weiterer Regressoren V 1 in Zustand 1 und V 2 in Zustand 2 gilt wieder der Hinweis am Ende von 
Kapitel 4.2. 1.2. 

97 Vgl. KROLZIG [1997], S. 109. 
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ein neuer Parameterwert gewählt wird, der den Wert der Likelihood im Vergleich zu dem aus 
dem letzten Iterationsschritt erhöht. Dies muß nicht notwendig der ML-Schätzer des Hilfsmo- 
dells sein. Dabei wird die Wahl eines neuen Parameters mit nur geringem Zuwachs der Like- 
lihood die benötigte Anzahl von Iterationen des EM- Algorithmus erhöhen. In Fällen, in denen 
die Berechnung des M-Schrittes kompliziert ist, kann es jedoch möglich sein, so die Rechen- 
zeit bis zur Konvergenz des EM-Algorithmus zu vermindern. 

4.3.2.2.4 Berechnung der neuen Parameter des Zustandsprozesses 

Für homogene Modelle lassen sich die Normalgleichungen des M-Schrittes für die Parameter 
des Zustandsprozesses nach den Parametern auflösen, so daß man geschlossene Ausdrücke 
für die neuen Parameterwerte erhält. 

Für Mischungsmodelle gilt 

T ( \ 

ß(A|y;A w ) = X Z( lo g/(xk,.X„W,;^) + log/>( J ,;A))P(5,|y;A w ) 

M V s, 

mit P(s t = 1; X) = p und P(s t = 2; X) = 1 - p . Durch Differentiation und Auflösen nach p 
erhält man 

£/>(*, =1 ly;*«) 

„(«+!) _ .M 

T 

Diese Formel hat eine sehr anschauliche Interpretation: Der neue Parameterwert für die 
Wahrscheinlichkeit dafür, daß Regime 1 herrscht, ist das arithmetische Mittel der geglätteten 
Wahrscheinlichkeiten für diesen Zustand. Wären die Zustände beobachtbar , so hätte 
P(s t =l|y;A (n) ) den Wert 0 oder 1, und p (n+l) wäre der gewöhnliche ML-Schätzer für die 
Erfolgswahrscheinlichkeit in einem Bemoulli-Experiment, berechnet aus einer einfachen Zu- 
fallsstichprobe vom Umfang T. 

Für Markov-Modelle gilt 
t ( 

Ö(A I y; A w ) = £ 2>g/(y, | *„X„ W ,-,X)P(s, \ y;A ( ">) 

f=l s, 

+ El Z lo s ? (*< I s,->^)P(.SnS,-> I y;A (n) ) 

+ ^ogP(s l ;X)P(s,\y;X M ) 

s l 

mit P(s, = 1 1 y M = 1; A) = p" , P(s, = 2 1 s,_, = 2;X) = p 22 , 

P(s, =2[^_, =1;A) = 1- J p", P(s, = 1 1 = 2; X) = 1 -p 22 , 




P(s x = 1;A) = p und P(s x = 2; A) = 1 - p . 

Aus den Normalgleichungen für p u , p 22 und p erhält man 
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M, ( „ +1) I^,=2, Vl =2|y;^) 

P" , P 22 =^-T 

= 1 1 y;2 (n| ) Z^,-, = 2 1 y;A w ) 

f=2 f=2 

und p ( * +l) = 7»(j 1 =l|y;A (,,) ). 

Diese Formeln lassen sich ähnlich anschaulich interpretieren wie die für Mischungsmodel- 
le: Der neue Schätzer der Startwahrscheinlichkeit für Regime 1 ist die geglättete Wahrschein- 
lichkeit für diesen Zustand zum Zeitpunkt t = 1, und der neue Schätzer für p 11 , die Wahr- 
scheinlichkeit für ein Verbleiben in Regime 1, ist das arithmetische Mittel der geglätteten 
Wahrscheinlichkeiten für zweimaliges Aufeinanderfolgen dieses Zustandes, geteilt durch das 
arithmetische Mittel der geglätteten Wahrscheinlichkeiten dafür, daß der erste dieser Zustände 
Regime 1 war (und analog für p 22 ). Wären die Zustände beobachtbar , so wären dies die ge- 
wöhnlichen ML-Schätzer für die Übergangswahrscheinlichkeit einer homogenen Markov- 
Kette, berechnet aus einer Realisation der Kette von der Länge T. 

Für inhomogene Modelle sind die Normalgleichungen für die Parameter des Zustandspro- 
zesses in der Regel (das heißt für sinnvolle funktionale Formen für die Übergangs- bzw. die 
Aufenthaltswahrscheinlichkeiten) nicht linear und lassen sich nicht nach den Parametern auf- 
lösen. Diese Situation ist ähnlich wie in den Fällen, in denen sich die Normalgleichungen des 
M-Schrittes für die Regressionsparameter nicht exakt lösen lassen, vgl. Kapitel 4. 3. 2.2. 3. 
Diebold, Lee und Weinbach [1994] haben (für inhomogene Markov-Modelle) vorgeschla- 
gen, die Normalgleichungen durch eine Taylorentwicklung der Übergangs Wahrscheinlichkei- 
ten bis zur ersten Ordnung zu linearisieren und diese approximativen Gleichungen nach den 
Parametern aufzulösen. In verschiedenen Testrechnungen zeigte sich, daß dieses Verfahren, 
das als verallgemeinerter EM-Algorithmus angesehen werden kann, ähnlich gute Eigenschaf- 
ten hat wie der exakte EM-Algorithmus für homogene Modelle. 

Die approximativen Gleichungen werden im Anhang B zu diesem Kapitel hergeleitet. Da- 
bei wird zusätzlich zu den in Diebold, Lee und Weinbach [1994] untersuchten inhomoge- 
nen Markov-Modellen auch auf Mischungsmodelle und auf verschiedene Parameterrestriktio- 
nen eingegangen. 
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Anhang A: Berechnung der geglätteten Wahrscheinlichkeiten der 
Zustandsvariablen für Markov-Modelle 

Alle folgenden Wahrscheinlichkeit(sdicht)en sind bedingt auf X, W und Yo, berechnet mit 
den Parametern ?S n \ 

(I.) Zuerst werden die Größen 

/O^-i) 

und P(5 f ,Vil^) 

iterativ ftir / = 2,... ,7 berechnet, indem die folgenden beiden Relationen ausgenutzt werden: 

(a) f(y, I Y,. t ) = ]£ £ Z /Ov > s , , s,-i : . s ,-2 1 Y ,-\ ) 

S, S ,_ 2 

= I I • S .-l)/(-V|.'V2 I ^-l) 

i, •J/-! 5,-2 

und 

(b) I Y.) = /( ^ ( y y } 

/telWJ 

f(y, I OA*, I ^-i)-P(^-i I %-i) 

= f(y, \L) ‘ 

Gleichung (a) enthält außer den bekannten Größen (f(y t \s t ) und P(s t \s t _ { )) nur den Ausdruck, 
der in (b) berechnet wird, und (b) außer bekannten Größen nur den Ausdruck, der in (a) be- 
rechnet wird, sowie den, der im letzten Schritt von (b) berechnet wurde. Man kann für 
t = 2,...,r die gesuchten Größen also iterativ ermitteln, indem man (a) und (b) abwechselnd 
berechnet. Für den Beginn der Iteration gilt 

/O 2 1 y,) = I y<) 

J 2 5, 

= ZI/(y2 1*2^2 l^(S.U)- 

s 1 s l 

Hamilton [1990] verwendet Pfsjy,) als freien Parameter. 98 Für die Konstruktion der Log- 
Likelihood-Funktion wurde in dieser Arbeit hingegen wie in Diebold, Lee und Weinbach 



98 Der Grund dafür ist wohl, daß dadurch die sich aus dem M-Schritt ergebenden Formeln für die von ihm aus- 
schließlich betrachteten Zeitreihenmodelle eine etwas intuitivere Gestalt bekommen. 
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[1994] als freier Parameter P(s{) verwendet," deswegen muß / > (j,|j' 1 ) hier folgendermaßen 
berechnet werden: 100 






/(*,,*) _ f(y,MPto 

f(y>) ‘ 

S \ 



'L'Ef(y2l s 2) p ( s 2\ s t)f(y<\ s t) p ( s i) 

Damit lautet der Iterationsanfang für (a) / Osbi) = ~ — r=: 



und für (b) 






f(yi,y\) 

./~(.V2 1 I -^t I -^i ) ^(-yi ) 

/O'jW/O'i) 

/0'2k2)^2kl)/0 ; ikl) f C?l) 

fiyi\y,)t.f(yMP(si) ’ 



(II.) Für ein festes t> 2 und (s h s t .\) e {1,2}x{1,2} berechnet man zuerst 



P( s t+i> s t » 5 /-il^+i) 



f(y t JY t ) 



und dann iterativ für t = t + 2 ,...,7 

i«-“ Tw« ' 

(III.) Wenn man % = T erreicht hat, berechnen sich daraus die geglätteten gemeinsamen Wahr- 
scheinlichkeiten aufeinanderfolgender Zustandsvariablen folgendermaßen: 

P( s t > s t-i I ^t) ~ S P( s t> s t- i » s t 9 s t- i I ^r) • 

S T S T _ 1 

(IV.) Daraus erhält man schließlich die geglätteten Wahrscheinlichkeiten der Zustandsvaria- 
blen vermöge 

/Wr) = 2>(s„Vil^) • 

S l-l 



99 Daß diese Autoren P(s\) als freien Parameter verwenden, erkennt man an ihrer Formel für die complete-data 
likelihood auf S. 286. 

100 Dies haben DIEBOLD, LEE und WEINBACH [1994] in ihrer ersten Formel auf S. 290 nicht beachtet. Ihr Verfah- 
ren zur Berechnung der geglätteten Wahrscheinlichkeiten (und damit der E-Schritt ihres EM-Algorithmus) ist 
deshalb nicht korrekt. 
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Anhang B: Berechnung der neuen Parameterschätzer des 
Zustandsprozesses für inhomogene Mischungs- und Markov-Modelle 

Für Mischungsmodelle gilt 101 



ß(A|y;A ( ”>) = X 5>g/(y, l^,X l ,W,;A) + logP(5 / |z /; A))/>(5jy;A (n) ) 



Sei 



und 



8t =g(z,Y+5) = P(s t =1| z t \X) 

«< dz I »5 



Dann lautet die Normalgleichungen für 5 

I .f 1 ' > (*, = 1 1 y ; A ( "> )(1 - g, ) + (1 - P(s, = 1 1 y ; A. ( "> ))g, ) = 0 
und die für y 

Z Z ‘ g ' i P(s,=\\y;X n> )(l-g l ) + (\-P(s, =l|y;A w ))g,) = 0 . 
Mg,0-g,) 

Wählt man für g, die logistische Funktion, so gilt 102 

— g-' - = 1 

Ä(l-ft) ’ 

so daß sich obige Gleichungen vereinfachen zu 

£p(s,=i|y;A ( ">) = £g, 



T 



und Z z ' p ( s ‘ = 1 1 y; A<n) ) = 2>.Ä • 

/=i t=\ 

Ersetzt man nun g t durch die Taylorentwicklung bis zur ersten Ordnung um den letzten Para- 
meterwert 



g, »gCz,/« +* W ) + .(5-5 ( "») + ^| ; ___ v( ., +s{ „ .(y -y<">) 



dg_ 

dy :=z ^ 



= g(z,y <*> +5 (n, ) + • ((5 - ö w ) + z, (y - y <">)), 

so erhält man lineare Gleichungen in 5 und y. Mit den Bezeichnungen 



101 Im folgenden wird nur der für empirische Arbeiten bei weitem wichtigste Fall eines skalaren Indikators z, 
betrachtet. Verallgemeinerungen für inhomogene Markov-Modelle mit vektoriellen Indikatoren finden sich in 
Diebold, Lee und Weinbach [1994], S. 300 f. 

102 Diese Beziehung macht die Verwendung der logistischen Funktion vorteilhaft. 
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Ä (n, = g(z,y < " ) +5 (n) ) 



und 



„w. = ^(£) 

6t fc 2=z f y <B) +5 <n) 



lautet die Lösung dieser Gleichungen 



( T T y 1 



f fi ("+lf 




I>, w ' zw 


», («+1) 




T T 


KY J 




zw zw 






\ M /=1 / 



S(P(*. = 1 ly;^" ) )-Y l -g, ( ' ,) '(5 w +z,y ( ' ,) )]) ' 

/=1 

£z,{p(s, =l|>';A w )-[g, w -^-(5 ( " ) + z , y w )]) . 

Vm 

Falls die Restriktion 5 = 0 verwendet wird, 103 so gilt 

y ("+1) _ _M 

f ' f — . 

zw 

t = 1 

Die Herleitung der Näherungsformel für Markov-Modelle ist völlig analog. Sie findet sich in 
Diebold, Lee und Weinbach [1994], S. 300 f., und wird deshalb an dieser Stelle nur ver- 
kürzt wiedergegeben. Mit der Bezeichnung P(s } =1 ;A) = p erhält man aus der Normalglei- 
chung für p wieder 



Sei 



und 



p (n+1) = PO, = 1 1 y;A5”>) . 
g,., = g(z,Y, +S n ) = P(s, = i | s, = i, z,;X), 



, = M| 

° l,t dz \ z=ZiYi+s ‘ ’ 

sf; ) = ^y, w +^ w ) 



r M._ 4g( z ) 

dz z= 2 ir}" )+ s l (n) 



für /= 1, 2. 



103 Dies ist der Fall eines bekannten "Umschlagpunktes” für die Aufenthaltswahrscheinlichkeiten bei z, = 0. Für 
einen anderen bekannten Umschlagpunkt 8 kann man obige Formel verwenden, wenn man z, durch z, - 8 ersetzt. 




68 



4 ML-Schätzung 



Die Näherungsformel lautet 



f 5, ( "* 1)N 1 

y <ntl) 

T 

Z 

f= 1 
T 

Z 2 - 



Z^-. = i I y,ß w )gT Z 2 --^-, = 1 1 ’ 

r=l r=l 

Z 2 -^,-. = ' l r>ß w )g'? Z 2 < 2/> fo-i = ' l y’ß M )g*' 



V 



- />(*,., = i | y;ß <B) fe ) -*5 ) '(« 1 < " ) + z,r, < " ) )]. 

- />(*,_, = / 1 > , ;/3 ( ” ) )[g, ( ” 1 - g^XS^ + z,r, < ” ) )] / 



104 , 



für / = 1, 2. Falls die Restriktion 6 = 0 verwendet wird, so gilt 

i fP(s,=i,s,_,=i\ya M ) ' 



Z 2 - 






- p( S ,_, = i I >a<">)[g,<;> - glTiö^+z^) 1 






Hier gilt sinngemäß wieder Fußnote 103. 
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5 ML-Schätzung von Regimewechselmodellen für Wochendaten des 
FF/DM- Wechselkurses 

Die Schätzverfahren für Regimewechselmodelle werden im folgenden an der Modellierung 
von wöchentlichen Durchschnittswerten des Wechselkurses zwischen dem Französischem 
Franc (FF) und der Deutschen Mark (DM) veranschaulicht. 

Der Beobachtungszeitraum wurde so gewählt, daß er keine Realignments enthält, da mit 
Realignments Wechselkurssprünge verbunden sind, die exogener Natur sind und die Schät- 
zung wesentlich verzerren würden, wenn ihnen in der Modellierung nicht separat Rechnung 
getragen wird. Da das letzte Realignment, das den FF/DM-Kurs betraf, am 12. Januar 1987 
stattfand, wird für die Untersuchung der Zeitraum vom 23. Januar 1987 bis zum 20. Novem- 
ber 1998 zugrunde gelegt. 105 Damit umfaßt die Reihe (mit insgesamt 618 Werten) praktisch 
den gesamten Zeitraum zwischen dem letzten FF/DM-Realignment und dem Beginn der 
Europäischen Währungsunion, also dem Ende des EWS. 




Abbildung 4: Wechselkurs zwischen FF und DM, Leit kur s und Interventionsgrenzen 



105 



Quelle: Datastream. 
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5 ML-Schätzung von Regimewechselmodellen für Wochendaten des FF/DM-Wechselkurses 



Es bezeichne w t den Preis einer DM in FF. Der Verlauf von w t ist zusammen mit dem 
FF/DM-Leitkurs und den zugehörigen Interventionsgrenzen im EWS in Abbildung 4 wieder- 
gegeben. Deutlich zu sehen ist die Erweiterung der Bandbreiten von 4,5 % auf 30 % am 2. 
August 1993. Dies legt die Frage nahe, ob in der Beobachtungsperiode ein Strukturbruch 
stattgefunden hat. Aufgrund der Flexibilität der verwendeten Modelle ist es jedoch nicht nö- 
tig, solch einen eventuellen Strukturbruch separat zu modellieren. Er müßte sich in einem 
Mischlings- oder Markov-Modell in einem abrupten Umschlag der geglätteten Wahrschein- 
lichkeiten an diesem Zeitpunkt niederschlagen. 

Der Wechselkurs ist in der betrachteten Periode wiederholt in die Nähe des oberen, nie je- 
doch des unteren Interventionspunktes gelangt. Dies läßt die Vermutung zu, daß Phasen mit 
„normalem“ Wechselkursverlauf abwechselten mit solchen, in denen darauf spekuliert wurde, 
daß der Franc gegenüber der Mark abgewertet würde (wie es bis Anfang 1987 schon sechs 
mal geschehen war). Ein Modell mit zwei Zuständen erscheint hier also gerechtfertigt. 

Den Gegenstand der empirischen Untersuchung bilden die wöchentlichen Differenzen der 
logarithmierten und mit 100 multiplizierten Werte des Wechselkurses, also 
r t =100 (log w t - log w M ) = 1 00 log(w, / w M ) . 

Für die Wahl dieser Differenzen lassen sich verschiedene Gründe anführen: 

• Die Differenzen können als stationär angesehen werden (s.u.). Deswegen werden die 
Schätzer für Regimewechselmodelle gute Eigenschaften für große Stichproben haben, vgl. 
Kapitel 6.1. 

• Diese logarithmischen Differenzen sind (im Gegensatz zu Veränderungsraten, die den 
Wert -1 nicht unterschreiten können) nicht nach unten begrenzt. Für sie ist also eine 
symmetrische Verteilung möglich. 

• Das Standard-Optionspreismodell von Black und Scholes 106 geht davon aus, daß diese 
Größen unabhängig identisch normalverteilt sind. Diese Annahme (die auch an anderen 
Stellen in der Finanzmarktökonometrie getroffen wird) kann direkt mit den Untersu- 
chungsergebnissen für die beiden betrachteten Wechselkurse kontrastiert werden. 

In Tabelle 1 sind einige wichtige statistische Daten der Verteilung von r t wiedergegeben. 
Auffällig ist der hohe Wert der Kurtosis. Die Nullhypothese einer Kurtosis von Null, wie es 
für die Normalverteilung der Fall ist, wird deutlich verworfen. Die Schiefe dagegen ist mode- 



106 



Vgl. z.B. Jarrow und RUDD [1983]. 
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rat und nicht signifikant von Null verschieden. 107 Die hohe Kurtosis ist auch der Grund dafür, 
daß der Jarque-Bera-Test die Nullhypothese einer Normalverteilung verwirft. 108 



Größe / Teststatistik 


Wert 


Signifikanzniveau 


Minimum 


-2,254 




Maximum 


1,795 




Maximaler Wert der Log-Likelihood 


-169,36 




Mittelwert fj. 


0,00058 




Standardabweichung er 


0,319 




Schiefe 


0,056 


0,57 


Kurtosis 


11,52 


0,00 


Jarque-Bera 


3400,77 


0,00 


Durbin- Watson 


2,13 


>0,05 


LB-10/ 20 (für r,) a 


7,15/20,92 


0,71 / 0,40 b 


Dickey-Fuller 


-11,50 


<0,01 


LB-10/ 20 (für r, 2 f 


252,06/265,96 


0,00/0,00 c 


ARCH(l) 


120,13 


0,00 



Tabelle 1: Statistische Daten der Verteilung von r, 

a : LB-10 / 20: Ljung-Box-Test bis zum 10. / 20. Lag 
b : Zum 5 %-Niveau signifikant: 11. Lag 
c : Zum 5 %-Niveau signifikant: 1. bis 11. Lag 

Der Wert der Durbin-Watson-Statistik ist nicht signifikant zum 5 %-Niveau. Der Ljung-Box- 
Test enthüllt keine signifikante Autokorrelation in den ersten 10 bzw. 20 Lags. In der Bartlett- 
Approximation ist nur ein einziger Lag (der 11.) zum 5 %-Niveau signifikant, was bei 20 ge- 
prüften empirischen Autokorrelationen gerade das erwartete Ergebnis unter der Nullhypothese 
nicht vorhandener Autokorrelation ist. 

Da es sich um differenzierte Daten handelt, verwundert es nicht, daß der Dickey-Fuller- 
Test die Nullhypothese eines Random- Walks zugunsten eines AR(l)-Modells verwirft, wobei 
angesichts der niedrigen empirischen Autokorrelation davon auszugehen wäre, daß der 
AR(1)-Parameter gleich Null ist. 

Deutlich sind auch die Ergebnisse der Ljung-Box-Tests für die quadrierten Beobachtungen, 
die zumindest unter der Nullhypothese von weißem Rauschen ohne Modifikationen angewen- 
det werden können. 109 Die Nullhypothese wird deutlich verworfen, und die ersten 11 unter 
den ersten 20 empirischen Autokorrelationen sind signifikant von Null verschieden. Dies 



107 Zur Verteilung der empirischen Schiefe und Kurtosis unter der Nullhypothese einer Normalverteilung vgl. 
z.B. SNEDECOR und COCHRANE [1980], S. 552. 

108 Vgl. JARQUE und BERA [1982]. 

109 Vgl. McLeod und Li [1983]. 
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5 ML-Schätzung von Regimewechselmodellen für Wochendaten des FF/DM-Wechselkurses 



zeigt sich auch an dem signifikanten Ergebnis des Lagrange-Multiplikatoren-Tests der Null- 
hypothese von weißem Rauschen gegen die Alternative eines ARCH(1 ^Modells. 1 10 




— Häufigkeit&fHJlygtsn 

Normalveneilung 



Abbildung 5: Häufigkeitspolygon und Dichte der geschätzten Normalverteilung von r, 

Die wichtigsten stylised facts der Daten sind also 

• die starke Leptokurtosis, die sich auch darin zeigt, daß das empirische Häufigkeitspolygon 
(oder ein anderer Dichteschätzer) deutlich höhere Werte in der Nähe des Mittelwertes und 
über den tails aufweist als die entsprechende Normal Verteilung (vgl. Abbildung 5), 

• die hohe Autokorrelation der quadrierten Werte, die auf das gehäufte Auftreten von Wer- 
ten mit hoher bzw. niedriger Volatilität ( volatility clustering) schließen läßt. 

Eine Möglichkeit, solche Daten zu modellieren, stellt ein ARCH-Prozeß mit leptokurtischer 
Verteilung der Störterme dar. Im folgenden soll aber gezeigt werden, wie sich diese Charakte- 
ristika der Zeitreihe mit Hilfe von Regimewechselmodellen beschreiben und erklären lassen. 



110 



Vgl. Bollerslev, Engle und Nelson [1994]. 
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5.1 Ein Schwellenmodell 

Bei Gültigkeit der ungedeckten Zinsparität entspricht die Zinsdifferenz zwischen zwei Län- 
dern der erwarteten Veränderungsrate des Wechselkurses der betroffenen Währungen. Nied- 
rige Zinsdifferenzen sind also ein Indikator für geringe erwartete Abwertungen der Währung 
mit dem höheren Zins, die sich dann noch innerhalb des Wechselkursbandes vollziehen kön- 
nen, hohe Zinsdifferenzen sind ein Anzeichen dafür, daß damit zu rechnen ist, daß diese Wäh- 
rung durchaus auch das Wechselkursband verlassen kann, d.h. daß ein Realignment stattfin- 
den muß. In einer solchen Situation kann Spekulation gegen die abwertungsgefahrdete Wäh- 
rung profitabel werden. Es ist deshalb vorgeschlagen worden, die Zinsdifferenz als Indikator 
für einen Regimewechsel zu verwenden: 111 Überschreitet sie eine gewisse kritische Schwelle, 
so setzt sich am Markt die Überzeugung durch, daß die gegenwärtigen Leitkurse nicht auf- 
rechterhalten werden können, und es beginnt eine spekulative Phase. 

360 



3 SS 



3. SO 



3.45 



140 



315 



3 30 

1937 1989 1999 1990 1991 1992 1993 199* 1995 1996 1997 199S 



- — — Zinsdiffierem (linke Skala) 

Wechselkurs FFfDM (rechte Skala) 




Abbildung 6: Differenz zwischen FF- und DM-Zinsen und FF /DM- Wechselkurs 



in 



Vgl. Bekaert und Gray [1998]. 
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5 ML-Schätzung von Regimewechselmodellen für Wochendaten des FF/DM-Wechselkurses 



In Abbildung 6 ist die Entwicklung der Differenz zwischen Zinsen für FF- und für DM- 
Einlagen dem Verlauf des Wechselkurses gegenübergestellt. 112 

Bis etwa 1990 waren die Zinsen für FF-Einlagen deutlich höher als für DM-Einlagen (mit 
sinkender Tendenz), es wurde also eine Risikoprämie für FF-Einlagen verlangt. Ab Ende 
1990 bis zur Krise des EWS 1992/93, die sich in hohen Ausschlägen der Zinsdifferenz zeigte, 
ging die Zinsdifferenz zurück. Nach einem Rückgang auf das Niveau vor der Krise stieg die 
Zinsdifferenz 1995 erneut stark an, um danach wieder zurückzugehen und Ende 1998, also 
unmittelbar vor Beginn der Währungsunion, in den Wert Null zu münden, worin sich das 
Vertrauen in das Übergehen des EWS-Leitkurses in die FF/DM-Relation in der Währungs- 
union widerspiegelte. 

Das hier untersuchte Modell ist demnach ein Schwellenmodell mit der Zinsdifferenz als 
Schwellenvariable und zu schätzendem Schwellenwert. Die entsprechenden Schätzwerte sind 
in Tabelle 2 dargestellt. 113 



■ 


A] 


Ai 


■ 




Maximaler Wert der 
Log-Likelihood 






Hi 


0,1)6 


0,352 


-90,61 



Tabelle 2: Geschätzte Parameter eines Schwellenmodells für r, 



Die beiden Zustände unterscheiden sich deutlich in den Volatilitäten. Die Volatilität ist 
höher in dem Zustand, der durch Zinsdifferenzen oberhalb des geschätzten Schwellenwertes 
von 0,25 % charakterisiert ist. Diese Beobachtung steht im Einklang mit der Hypothese, daß 
hohe Zinsdifferenzen einen Indikator für spekulatives Verhalten darstellen. 114 

Der geschätzte Schwellenwert erscheint angesichts der üblichen Zinsdifferenzen als sehr 
niedrig. Teilt man die Beobachtungsperiode in Phasen auf, die zu den beiden Zuständen ent- 
sprechend diesem geschätzten Schwellenwert gehören, so überwiegt Zustand 1 mit der hohen 
Volatilität (vgl. Abbildung 7). 

Bis 1997 wird hauptsächlich dieser Zustand beobachtet (mit einer größeren Zahl von kur- 
zen Unterbrechungen), und danach (mit einer kurzen Unterbrechung) ausschließlich der ande- 
re. Das Schwellenmodell hat also beinahe den Charakter eines Strukturbruchmodells, mit 

112 Es handelt sich um die Differenzen zwischen auf Jahresbasis umgerechnete Zinsen für einwöchige FF- und 
DM-Einlagen. Da der französische Kapitalmarkt erst im Verlaufe der achtziger Jahre vollständig liberalisiert 
wurde, spiegeln an Märkten in Frankreich erhobene Zinsen die Marktbedingungen u.U. nicht vollständig wider. 
Deswegen wurden Zinsen für Einlagen in London verwendet ( eurocurrency rates). Quelle: Datastream. 

113 Zur Berechnung der ML-Schätzer vgl. den Anhang zu diesem Kapitel. - In Klammem sind die geschätzten 
Standardfehler der Schätzwerte angegeben. 

114 Auf die beiden Mittelwerte wird in Kapitel 7.3 genauer eingegangen. 
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einem Strukturbruch, der durch einen permanenten Übergang zu niedrigeren Volatilitäten ab 
etwa Anfang 1997 charakterisiert ist. 




— 


Zinsdifferenz 


— 


Geschätzter Schwellenwert 



Abbildung 7: Abfolge der Zustände im Schwellenmodell (senkrechte Linien entsprechen Zustandswechseln) 

Zumindest qualitativ kann dieses Modell die oben erwähnten stylised facts der Daten erklären: 
Es treten lange Phasen hoher und niedriger Volatilität auf, die für die beobachtete Autokorre- 
lation der quadrierten Werte verantwortlich sind. Ihre Mischung erklärt die hohe empirische 
Leptokurtosis. Diese Aspekte können aber auch durch andere Modelle beschrieben werden, 
wie die folgenden Untersuchungen zeigen. 

5.2 Ein Mischungsmodell 

In Tabelle 3 sind die Schätzwerte eines Mischungsmodells für die Zeitreihe r t nach dem ML- 
Verfahren angegeben. 115 



115 In Klammem sind die mit einer geschätzten Varianz-Ko varianz-Matrix berechneten Standardfehler der 
Schätzwerte angegeben. Da man mit diesem Verfahren auch geschätzte Standardfehler der geschätzten Standar- 
dabweichungen der Störterme erhält, sind diese der Vollständigkeit halber in der Tabelle aufgeflihrt. Vgl. hierzu 
und zur Berechnung der ML-Schätzer den Anhang zu diesem Kapitel. 
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Log-Likelihood 
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-3,37 



Tabelle 3: Geschätzte Parameter eines Mischungsmodells für r, 



Charakteristisch sind die um einen Faktor von mehr als 4 verschiedenen Standardabweichun- 
gen. In diesem Modell tritt also mit einer geschätzten Wahrscheinlichkeit von 0,189 ein Zu- 
stand mit hoher Volatilität ein. Die geschätzten Standardfehler der Schätzwerte für p, G\ und 
(72 sind relativ klein und die für und p 2 verhältnismäßig groß. 116 

Aus den geschätzten Parametern lassen sich die Momente der geschätzten Mischungsver- 
teilung und ihre Dichte berechnen. 117 Die Momente sind in Tabelle 4 wiedergegeben. Ein 
Vergleich mit Tabelle 1 zeigt, daß sie nahe bei den empirischen Momenten liegen. 118 



Mittelwert 


S tandardab weichung 


Schiefe 


Kurtosis 


0,00058 


0,318 


0,43 


10,84 



Tabelle 4: Momente der geschätzten Mischungsverteilung 



In Abbildung 8 wird die Dichtefunktion der Mischungsverteilung dem empirischen Häufig- 
keitspolygon (und der geschätzten Normalverteilung) gegenübergestellt. Es zeigt sich, daß die 
Dichte der Mischungsverteilung die empirische Häufigkeitsverteilung gut beschreibt. 

Zusammenfassend läßt sich sagen, daß Mischungsverteilungen in der Lage sind, ein zen- 
trales Charakteristikum der untersuchten Daten, ihre auffällig hohe Kurtosis, zu beschreiben 
und zu erklären: Es treten abwechselnd Phasen hoher und niedriger Volatilität auf, deren Mi- 
schung zu der beobachteten Leptokurtosis führt. 

Rückschlüsse auf die Abfolge der beiden Zustände in den Daten lassen sich mit Hilfe der 
geglätteten Wahrscheinlichkeiten ziehen. In Abbildung 9 ist der zeitliche Verlauf dieser 
Wahrscheinlichkeit für Zustand 1 (mit hoher Volatilität) dargestellt. 

Da die Zustände in einem Mischungsmodell unabhängig sind, ist die Kurve sehr erratisch. 
Dennoch lassen sich einige charakteristische Phasen ausmachen. Bis Anfang 1992 ist die 
Wahrscheinlichkeit für den volatilen Zustand insgesamt niedrig (von einzelnen Ausreißern 
abgesehen). Markant ist insbesondere das letzte Jahr dieser Periode, in dem weitgehendes 
Vertrauen der Märkte in das EWS eingekehrt zu sein scheint. 



1,6 Auf die beiden Mittelwerte wird in Kapitel 7.3 genauer eingegangen. 

117 Zur Berechnung dieser Momente vgl. Kaehler und Marnet [1994], S. 212. 

118 D.h. daß Schätzwerte nach der Methode der Momente vermutlich nicht wesentlich von diesen ML- 
Schätzwerten abweichen. 
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Abbildung 8: Häufigkeitspolygon, Dichte der geschätzten Normal- und Mischungsverteilung von r, 

Ab Mitte 1992 zeigt sich die Krise des EWS in höheren Wahrscheinlichkeiten für den 
volatilen Zustand, die bis etwa Ende 1996 andauem. Ein eventuell vorhandener Strukturbruch 
nach der Erweiterung der Bandbreiten im August 1993 läßt sich an den geglätteten Wahr- 
scheinlichkeiten nicht erkennen. 

Die niedrigen geglätteten Wahrscheinlichkeiten für Zustand 1 ab Ende 1996 zeigen, daß 
sich zu diesem Zeitpunkt die Überzeugung durchsetzte, daß der seit Januar 1987 bestehende 
Leitkurs marktgerecht war und auch die FF/DM-Relation nach Inkrafttreten der Europäischen 
Währungsunion am 1. Januar 1999 darstellen würde, wie es dann tatsächlich eingetreten ist. 

Auffällig ist, daß die geglätteten Wahrscheinlichkeiten ein Minimum von etwa 0,05 nicht 
unterschreiten. Dies ist kein Zufall, sondern beruht auf der prinzipiellen Schwäche von 
Mischungsmodellen, einen Zustand mit niedriger Volatilität sicher zu erkennen, wenn die 
Mittelwerte der Zustände nahe beieinander liegen (wie es hier der Fall ist). An der Formel für 
die geglättete Wahrscheinlichkeit aus Kapitel 4.3.2. 1 (S. 57) erkennt man, daß sie nicht belie- 
big klein werden kann, weil auch für Beobachtungen in der Nähe des gemeinsamen Mittel- 
wertes die Dichte der Komponente mit der hohen Volatilität nicht Null wird. Anders ist dies 
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bei absolut gesehen hohen Beobachtungen, bei denen die Dichte der Komponente mit der 
niedrigen Volatilität gegen Null geht und deshalb die geglättete Wahrscheinlichkeit für Zu- 
stand mit der hohen Volatilität gegen Eins. 




Abbildung 9: Geglättete Wahrscheinlichkeit für Zustand 1 (Mischungsmodell) 



5.3 Ein Markov-Modell 

Ein Mischungsmodell (bei dem die Beobachtungen unabhängig voneinander sind) kann die 
hohe Autokorrelation der quadrierten Beobachtungen nicht erklären. Sie hat ihren Grund 
darin, daß in den Daten Beobachtungen mit großen positiven oder negativen Ausschlägen, 
also mit hoher Volatilität, gehäuft auftreten (und ebenso Beobachtungen mit niedriger Volati- 
lität). Es liegt also bedingte Heteroskedastizität vor. In der Sprache von Regimewechselmo- 
dellen: Die Wahrscheinlichkeit ist hoch, daß auf einen Zustand mit hoher Volatilität ein eben- 
solcher folgt, und ebenso für den anderen Zustand. Die Unabhängigkeit der Zustände, die für 
ein Mischungsmodell charakteristisch ist, liegt hier also vermutlich nicht vor. Es bietet sich 
an, statt dessen ein Markov-Modell zu verwenden, in dem die Wahrscheinlichkeit für einen 
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Zustand explizit vom Zustand der Vorperiode abhängt. Die Schätzergebnisse für ein solches 
Modell sind in Tabelle 5 dargestellt. 119 
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0,839 


0,952 

(0,016) 
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EH 


44,12 



Tabelle 5: Geschätzte Parameter eines Mar kov- Modells für r, 



Die Schätzwerte für die Mittelwerte und die Standardabweichungen (und sogar die geschätz- 
ten Standardfehler der Schätzwerte) sind denen des Mischungsmodells (vgl. Tabelle 3) ähn- 
lich. Auffällig sind die hohen Schätzwerte der Übergangswahrscheinlichkeiten p u und p 22 , 
die die Wahrscheinlichkeiten für das Verbleiben in den beiden Zuständen darstellen. Der 
Grund hierfür liegt in der Häufung von Beobachtungen aus jeweils einem Zustand. Der sich 
daraus ergebende Erwartungswert der Verweildauer in diesen Zuständen (vgl. S. 20) beträgt 
l/(l - p u ) = 6,2 Wochen für Zustand 1 und l/(l - p 22 ) = 21,0 Wochen für Zustand 2. 

Aufschlußreich ist auch der Schätzwert für die (unbedingte) Wahrscheinlichkeit für Zu- 
stand 1 (vgl. S. 19): 



i -p 22 






= 0,228 . 



Dies entspricht näherungsweise der geschätzten Wahrscheinlichkeit dieses Zustandes im Mi- 
schungsmodell. Insgesamt ergibt sich also, daß sich alle Charakteristika des Mischungsmo- 
dells im komplexeren Markov-Modell wiederfinden. Zusätzlich erfaßt das Markov-Modell die 
Autokorrelation der quadrierten Werte, die sich im Markov-Modell in hohen geschätzten 
Verweil Wahrscheinlichkeiten der vorwiegend durch die Volatilität charakterisierten Zustände 
widerspiegelt. 

Dieser zusätzliche Erklärungsgehalt zeigt sich auch im Verlauf der geglätteten Wahr- 
scheinlichkeiten für Zustand 1, der in Abbildung 10 dargestellt ist. 

Da die Abfolge der Zustände in diesem Modell nicht mehr unabhängig ist, ist die Kurve 
glatter als die entsprechende des Mischungsmodells (vgl. Abbildung 9). Die einzelnen Pha- 
sen, in denen einer der beiden Zustände dominiert, treten hier deutlicher hervor. Da zur Be- 
rechnung der geglätteten Wahrscheinlichkeit für einen Zustand nicht nur der aktuelle Wert der 
Variablen verwendet wird, sondern alle Werte einfließen (vgl. Kapitel 4, Anhang A), können 
die Zustände hier besser unterschieden werden. Dies äußert sich z.B. darin, daß die geglätte- 



119 



Zur Berechnung der ML-Schätzer vgl. den Anhang zu diesem Kapitel. Vgl. auch Fußnote 115. 
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ten Wahrscheinlichkeiten für das Markov-Modell (anders als beim Mischungsmodell) auch 
den Wert Null annehmen können, wie an Abbildung 10 ersichtlich ist. 




1987 1968 1989 1990 1991 1992 1993 1994 1995 1996 1997 1996 



Abbildung 10: Geglättete Wahrscheinlichkeit für Zustand 1 (Markov-Modell) 

Es ist zu vermuten, daß die Phasen mit hoher geglätteter Wahrscheinlichkeit vor der Erweite- 
rung der Bandbreiten im August 1 993 als Spekulation auf eine Abwertung des FF anzusehen 
sind, da der Wechselkurs in diesem Zeitraum mehrfach in die unmittelbare Nähe der Inter- 
ventionsgrenzen gelangte. Interessant ist, daß diese Maßnahme die Unruhe auf den Devisen- 
märkten keineswegs sofort beendete. Diese Phase dauerte bis Ende 1996, mit einer kurzen, 
aber deutlichen Unterbrechung Ende 1994. Angesichts des großen Abstands des Wechselkur- 
ses von den neuen Interventionsgrenzen kann man aber nicht mehr davon ausgehen, daß in 
dieser Phase auf ein Realignment spekuliert wurde. Einen Ansatz zur Interpretation dieser 
lang andauernden Phase hoher Volatilität wird die Untersuchung der Monatsdaten des 
FF/DM-Kurses im Zusammenhang mit der PPP in Kapitel 10.2 ergeben. 
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Anhang: Verwendete Schätzverfahren 

Alle im folgenden beschriebenen Berechnungen wurden mit dem Softwarepaket RATS for 
Windows (v. 4.30) der Firma Estima (Evanston, USA) durchgefuhrt, auf das sich auch die 
programmiertechnischen Hinweise beziehen. 

1. Schwellenmodell 

Hier liegt (wie bei den anderen beiden untersuchten Modellen auch) der Fall (3) aus Kapitel 
4.1 (S. 37) vor. Wäre der Schwellenwert (und damit die Aufteilung der Beobachtungen auf 
die beiden Zustände) bekannt, so ließen sich die ML- Schätzer der Parameter, wie in Kapitel 
4.2. 1.2 erläutert, durch separate lineare Regressionen für die Beobachtungen, die jeweils ei- 
nem Regime entsprechen, berechnen. Da der Schwellenwert unbekannt ist, wurde das in Ka- 
pitel 4.2.2 erläuterte Verfahren angewendet: Die eben erwähnten Regressionen wurden für je 
einen Schwellenwert zwischen je zwei benachbarten Beobachtungen von z (nämlich dem 
arithmetischen Mittel der beiden Werte) durchgeführt und daraus jeweils der Wert der Log- 
Likelihood nach der Formel auf S. 43 berechnet. Die angegebenen Schätzer sind diejenigen, 
für die dieser Wert maximal wurde. Der entsprechende Programmcode besteht also im we- 
sentlichen aus einer Schleife über die Beobachtungen von z und zwei Regressionsanweisun- 
gen (nämlich dem LINREG-Befehl mit der Option SMPL zur Angabe der Beobachtungen, die 
den beiden Zuständen entsprechen), die bei jedem Durchlauf der Schleife ausgeführt werden. 

2. Mischungsmodell 

Diese Werte wurden gewonnen, indem sowohl der EM-Algorithmus als auch ein numerischer 
Algorithmus mit einem Gitterverfahren zur Bestimmung der Startwerte kombiniert wurde. 

Der EM-Algorithmus läßt sich für Mischungsmodelle, wie in Kapitel 4.3.2 erläutert, relativ 
leicht umsetzen. Für den E-Schritt werden die geglätteten Wahrscheinlichkeiten der Zu- 
standsvariablen benötigt, die mit Hilfe der auf S. 57 angegebenen Formel berechnet wurden. 
Für den M-Schritt wurden die in Kapitel 4.3. 2.2.2 auf S. 59 definierten Matrizen (d.h. hier: 
Vektoren) X' mit Hilfe der geglätteten Wahrscheinlichkeiten berechnet und damit die in die- 
sem Kapitel unter (3) beschriebenen Regressionen durchgeführt. Der neue Parameter des Zu- 
standsprozesses (d.h. hier /?, die Wahrscheinlichkeit für Zustand 1) wurde mit Hilfe der auf 
S. 62 in Kapitel 4. 3. 2.2.4 angegeben Formel berechnet. Der E- und der M-Schritt wurden ab- 
wechselnd solange ausgeführt, bis keiner der Parameterwerte um mehr als 10' 8 von dem ent- 
sprechenden im letzten Iterationsschritt abwich. 
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Das verwendete numerische Verfahren war der BHHH-(Bemdt-Hall-Hall-Hausman-) 
Algorithmus in der Implementierung von RATS for Windows (v. 4.30). 120 Wie auf S. 51 in 
Kapitel 4.3 dargelegt wurde, hat die Likelihood für Mischungsmodelle eine einfache Produkt- 
gestalt (wobei hier p für P(s t = 1 1 z t ) und 1 - p für P(s t = 2 1 z t ) einzusetzen ist). Deswegen 
lassen sich die ML-Schätzer in RATS sehr bequem mit dem Befehl MAXIMIZE (und der Op- 
tion BHHH) berechnen. Es wurde dasselbe Konvergenzkriterium wie im Falle des EM- 
Algorithmus verwendet. 

Als Startwerte für die Mittelwerte sowie für die Standardabweichungen wurden jeweils 
einmal die Schätzwerte des linearen Modells (Tabelle 1, S. 71) und die des Schwellenmodells 
(Tabelle 2, S. 74) in allen Kombinationen verwendet. Diese 4 Sätze von Startwerten wurden 
kombiniert mit den Startwerten 0,25, 0,5 und 0,75 für p. Daraus ergaben sich insgesamt 12 
Kombinationen von Startwerten, die für das EM- und das numerische Verfahren zugrunde 
gelegt wurden. In 22 dieser 24 Rechnungen konvergierte der jeweilige Algorithmus bei den 
angegebenen Schätzwerten, bei den zwei übrigen Fällen an Werten, bei denen der Wert der 
Log-Likelihood niedriger war. Die angegebenen Werte repräsentieren deshalb mit großer 
Wahrscheinlichkeit das größte lokale Maximum. 121 

3. Markov-Modell 

Für das Markov-Modell wurden analoge Schätzverfahren mit den gleichen Konvergenzkrite- 
rien verwendet. 

Die geglätteten Wahrscheinlichkeiten und die bedingten gemeinsamen Wahrscheinlichkei- 
ten aufeinanderfolgender Zustandsvariablen für den E-Schritt des EM-Algorithmus wurden 
mit Hilfe der im Anhang A von Kapitel 4 erläuterten Rekursion berechnet. Mit ihrer Hilfe 
wurden die neuen Parameterschätzer des M-Schrittes jeder Iteration nach den Formeln aus 
den Kapiteln 4.3. 2.2.2 und 4.3. 2.2.4 gewonnen. Dabei wurde für die Startwahrscheinlichkei- 
ten angenommen, daß die Kette stationär ist. 

Für die Implementierung des numerischen Verfahrens wurde von der auf S. 50 in Kapitel 
4.3 angegebenen rekursiven Darstellung der Likelihood Gebrauch gemacht, die von Gray 
[1996] (Appendix) vorgeschlagen wurde. Sie gestattet es, in RATS mit Hilfe des Befehls 
MAXIMIZE mit der Option RECURSIVE die ML-Schätzer für diesen Fall zu berechnen. 

Die Startwerte wurden ähnlich wie für das Mischungsmodell bestimmt, wobei hier die 
Werte 0,25, 0,5 und 0,75 für p u und p 22 in beliebiger Kombination verwendet wurden, wo- 

120 Vgl. Berndt u.a. [1974]. 

121 Bei heteroskedastischen Modellen existiert kein globales Maximum, vgl. dazu Kapitel 6.1.2. 
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durch sich insgesamt 36 Sätze von Startwerten ergaben. In 65 der 72 Rechnungen mit den 
beiden Verfahren ergaben sich die angegebenen Parameterschätzer, in 5 Fällen Konvergenz- 
punkte mit kleinerem Wert der Log-Likelihood, und in 2 Fällen brach das Verfahren vorzeitig 
ab, weil eine Matrixinversion des BHHH- Verfahrens nicht durchgefuhrt werden konnte. Die 
angegebenen Werte repräsentieren deshalb ebenfalls mit großer Wahrscheinlichkeit das 
größte lokale Maximum. 
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6 Asymptotische Eigenschaften der ML-Schätzer und Tests 

Aus der großen Zahl verschiedener Varianten von Regimewechselmodellen ergibt sich ein 
hohes Maß an Flexibilität in empirischen Anwendungen. Sie stellt den Anwender jedoch auch 
vor das Problem der Auswahl eines geeigneten Modells. Die Frage nach den in diesem Zu- 
sammenhang benötigten Tests ist eng verknüpft mit der Verteilung der ML-Schätzer. Diese 
läßt sich i.d.R. nicht exakt, sondern - wenn überhaupt - nur asymptotisch bestimmen. Auf 
diesen Themenbereich wird in Kapitel 6.1 eingegangen. Darauf aufbauend wird in Kapitel 6.2 
die Testtheorie im Kontext von Regimewechselmodellen dargestellt. 

6.1 Asymptotische Eigenschaften der ML-Schätzer 

6.1.1 Schwellenmodelle 

Für Schwellenmodelle ist die Situation grundsätzlich verschieden, je nachdem, ob der 
Schwellenwert bekannt ist oder nicht. Diese beiden Fälle werden deshalb im folgenden in 
getrennten Kapiteln behandelt. 

6.1. 1.1 Bekannter Schwellenwert 

Es werden zuerst homoskedastische Modelle mit nichtstochastischen Regressoren ohne ver- 
zögert endogene Variablen betrachtet, also die Fälle (2) und (4) aus der Fallunterscheidung in 
Kapitel 4.1 (S. 37). Die Diskussion in Kapitel 4.2 hat gezeigt, daß sich diese Modelle als ge- 
wöhnliche lineare Modelle mit der Regressormatrix 

x=(x' x 2 w) 

und dem Parametervektor 

(ßx) 

ß= ß 2 

auffassen lassen (in (2) gilt W = 0 und a = 0). Die ML-Schätzer für die Regressionsparameter 
sind die gewöhnlichen OLS-Schätzer für diese Modelle; die ML-Schätzer für die Störvarianz 
sind das (T-2K- L)/T -fache des gewöhnlichen Varianzschätzers (in (2) gilt L = 0). Damit 
haben sie auch alle bekannten Eigenschaften dieser Schätzer. 
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Es gilt insbesondere: 122 

• ß ist der best linear unbiased estimator (BLUE), ß ~ W(/3,<7 2 (X'X) _1 ) , 

'IK + L 

• Tg 2 /g 2 ~ x 2 (T~2K- L) , d.h. ^(cr 2 ) = (1 — — - — )<r 2 , cf 2 ist also asymptotisch er- 
wartungstreu, 

T — 2 K — L 

Var(6 2 ) = 2cr 4 ^ » <? 2 ist demnach MSE-fMeaw Square Error-) konsistent 123 und 

damit insbesondere konsistent, 

• ß und er 2 sind unabhängig. 

Ein erwartungstreuer Schätzer für die Varianz ist s 2 = T/(T - 2 K -L)6 2 . 

Um Aussagen über die Eigenschaften der Schätzer für die Regressionsparameter in großen 
Stichproben machen zu können, muß man Annahmen über das Verhalten der Regressoren für 
große T treffen. Die übliche Annahme ist 

lira^X'X = Q, 

wobei Q eine positiv definite Matrix darstellt. Es gilt dann 

• ß ist MSE-konsistent. 124 

Die Annahme liml/7YX'X) = Q bedeutet in diesem Fall folgendes: Es ist 
'X") 

X X= X 2 ' (x 1 X 2 w) 

W' 

\ / 

' X''X' 0 x^w 1 ' 

= 0 x 2, x 2 x 2, w 2 . 

Jx^W 1 )’ (x 2, w 2 ) w w 

In (2) mit W = 0 wird also vorausgesetzt, daß die Quadrate (und gemischten Produkte) der 
Regressoren getrennt für s t =1 und s t -2 mit der Rate T, also dem Stichprobenumfang, wach- 
sen. 

122 Vgl. z.B. Greene [1997], S. 271. 

123 D.h. der Schätzer ist L 2 -konvergent gegen den wahren Parameter. 

124 Die Annahme über die Momentenmatrix in großen Stichproben ist unnötig stark. Sie ist z.B. nicht erfüllt, falls 
einer der Regressoren ein linearer Zeittrend ist. In diesem Fall würde der Parameterschätzer noch schneller ge- 
gen den wahren Parameter konvergieren als in obigem Fall - er wäre superkonsistent, und zwar von der Ordnung 
in Wahrscheinlichkeit ( order in probability) T m . Man kann die Voraussetzungen, die erfüllt sein müssen, damit 
die Parameterschätzer konsistent sind, abschwächen. Einen hinreichenden Satz von Bedingungen bilden z.B. die 
sogenannten Grenander-Bedingungen, vgl. GREENE [1997], S. 274, oder JUDGEu.a. [1985], S. 162. 
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Für ein Regressionsmodell ohne Zustandswechsel lautet die entsprechende Bedingung 
lim(l/7)X , X = Q.Es gilt 

X'X=(x l, +X 2 'Xx'+X 2 ) 

=X I 'X 1 +X 2 'X 2 



also ist die Voraussetzung lim(l/r)X'X = Q stärker als die entsprechende Bedingung für 
ein lineares Modell. 

Falls diese quadratischen Terme zu verschiedenen Zeitpunkten in etwa den gleichen Wert 
haben, bedeutet die Annahme lim(l / T)X' X = Q , daß der Anteil der Stichprobenwerte, der 



auf jeden der beiden Zustände entfällt, zeitlich ungefähr konstant sein muß. Das ist anschau- 
lich leicht verständlich: Wenn ab einem gewissen Zeitpunkt für einen der beiden Zustände 
keine Werte mehr beobachtet werden, so kann man nicht erwarten, daß man die zu diesem 
Zustand gehörigen Regressionsparameter konsistent schätzen kann. In Fall (4) kommt als zu- 
sätzliche Bedingung hinzu, daß die quadratischen Terme von W mit der Rate T wachsen, und 
ebenso diejenigen von X und W (diese wiederum getrennt für s t = 1 und s t = 2). 

Die allgemeine Theorie der ML-Schätzer macht genauere Aussagen über ihre asymptoti- 
sche Verteilung. Sie besagt, daß - unter gewissen Regularitätsannahmen 125 - die ML-Schätzer 
asymptotisch erwartungstreu und normal verteilt sind, wobei die asymptotische Varianz- 
Kovarianz-Matrix die Inverse der Informationsmatrix, also die Cramer-Rao-Untergrenze für 
die Varianz-Ko varianz-Matrix eines jeden erwartungstreuen Schätzers der Parameter darstellt. 
ML-Schätzer sind demnach in solchen Fällen asymptotisch effizient. 

Faßt man alle Parameter zu einem Vektor 77 = (ß\, ßi, a, er 2 ) zusammen, so konvergiert das 
7 1/2 -fache dieses Vektors also in Verteilung gegen die angesprochene Normalverteilung: 

Vrfo-nol-^AW./foo)' 1 ) . 



mit 



/(»?. ) = -4 



( d 1 log/(y;r) 0 ) A 



dridri' 

Die Informationsmatrix lautet in dem hier betrachteten Fall 



125 Diese Annahmen sind - ähnlich wie die des zentralen Grenzwertsatzes - kompliziert und i.a. schwer nachzu- 
prüfen, vgl. z.B. GOUR1EROUX und MONFORT [1995a], S. 183 ff. Die Autoren weisen daraufhin, daß die Aussa- 
ge für Regressionsmodelle nicht richtig sein muß (vgl. S. 193). Sie zeigen jedoch, daß sie gilt, wenn die obige 
Annahme über das Verhalten der Momentenmatrix für wachsende Stichproben erfüllt ist. 
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Diese asymptotische Verteilung läßt sich für den homoskedastischen Fall auch ohne die all- 
gemeine Theorie von ML-Schätzem herleiten: Die Schätzer für die Regressionsparameter 
sind, wie oben dargelegt, schon in endlichen Stichproben normal verteilt mit genau dieser Va- 
rianz-Kovarianz-Matrix (d.h. der ersten (2^+L)-Untermatrix der Informationsmatrix), sie sind 
schon in endlichen Stichproben unabhängig von dem Schätzer für die Varianz, und da dieser 
in endlichen Stichproben ^-verteilt ist, folgt die asymptotische Normalverteilung mit der 
angegebenen Varianz hier auch aus dem Zentralen Grenzwertsatz. 

Im heteroskedastischen Fall kann man in der Regel nur Aussagen über die asymptotischen 
Eigenschaften der ML-Schätzer machen. Eine Ausnahme hiervon stellt der Fall (3) dar, bei 
dem alle Regressionsparameter zustandsabhängig sind. Wie die Diskussion in Kapitel 4.2 
gezeigt hat, gilt hier wie im entsprechenden homoskedastischen Fall 
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/T 



= ß =(X'X)~'X'y 



2 J 



= (X 1 X)" 1 X' (Xß + u) 
= ß + (X'X)" 1 X'u. 

Es gilt 

• ß ist der best linear unbiased estimator (BLUE), 



ß ~ N(ß, 



^(X^x 1 )- 1 



0 



0 ct 2 2 (X 2, X 2 )" 1 > 



• ~ -K), d.h. 6 f ist asymptotisch erwartungstreu und MSE-konsistent, 

• ßi, ß 2 , <$\ und cf 2 2 sind unabhängig. 

Erwartungstreue Schätzer für die Varianzen stellen hier sf =T/(T- K)ct? dar. 

Für diesen und die übrigen heteroskedastischen Fälle (1) und (5) gelten unter gewissen 
Voraussetzungen 126 wieder die analogen Aussagen über die asymptotischen Eigenschaften der 
ML-Schätzer. Die wichtigste Annahme ist hier 

lim— X'Q~ I X = Q, 

T->oo T 

wobei Q wieder eine positiv definite Matrix darstellt. Es gilt 



X'Q -1 X= 



Ax"x' 

0| 



1 



x"w' 



-X 2 'X 2 



-i r X 1, W I ’ [ -^-X 2, W 2 

'A cr i ) j 



-L-X 2, w 2 
°2 

^-W'w'+^-w^w 2 

J 



J \ 



Der wichtigste Unterschied zwischen der Annahme limCl/^X'Q X = Q und der entspre- 

7-> oo 

chenden im homoskedastischen Fall betrifft die rechte untere Blockmatrix: Die mit den 
Kehrwerten der zugehörigen Varianzen gewichteten (gemischten) Quadrate von Elementen 
von W aus den beiden Zuständen müssen mit der Rate T wachsen. Hinreichend (aber nicht 
notwendig) hierfür ist z.B., daß 

lim^W 1 'W‘ und lim-W 2, W 2 

r-> « T r-> oo T 



getrennt existieren und positiv definit sind. 



Vgl. Magnus [1978], S. 294 f. 
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Faßt man die Parameter jetzt zu dem Vektor 77 = (ß\, ß 2 , a , a 2 , <t 2 2 ) zusammen, so gilt unter 
dieser Annahme wieder 



Die asymptotische Varianz-Ko varianz-Matrix lautet in diesem Fall 



I(rioT 1 = 



(x’cr’x ) -1 

0 

0 



0 

2 a , 4 

0 



0 

0 

2ct 4 



Die ML-Schätzer sind also auch hier konsistent, sowie asymptotisch erwartungstreu, normal- 
verteilt und effizient. Asymptotisch sind die Schätzer für die Regressionsparameter und die 
für die Varianzen (wie im gewöhnlichen linearen Modell) unabhängig. Die asymptotischen 
Varianzen von a 2 und <j 2 sind die Werte, die man erhält, wenn man die Ergebnisse für das 



gewöhnliche lineare Modell jeweils auf die beiden Stichproben mit s ( = 1 und s t = 2 überträgt. 

Sind die Regressoren stochastisch, so sind die meisten dieser Aussagen weiterhin gültig, 
wenn man die stochastischen Annahmen etwas modifiziert . 127 Nimmt man an, daß u und X 



stochastisch unabhängig sind und £(u|X) = 0 gilt, so sind ß und s 2 bzw. s 2 (/ = 1,2) zumin- 



dest in den Fällen (1), (2) und (4) erwartungstreu. Die Varianz von ß ist in den homoskeda- 
stischen Fällen ct 2 e[(X'X" 1 )] , die Verteilung von cf 2 bzw. 6 2 ( i = 1,2) ist identisch mit der 
im Fall nichtstochastischer Regressoren, und ß und a 2 bzw. 6 2 (i = 1,2) sind unkorreliert 
(aber nicht notwendig unabhängig). 

Alle asymptotischen Eigenschaften, also die Konsistenz sowie die asymptotische Erwar- 
tungstreue, Normal Verteilung und Effizienz, gelten unverändert, wenn man die Annahme über 
die Momentenmatrix in großen Stichproben ersetzt durch 

plim^X'X = Q . 

r-> * 1 

wobei Q wieder eine (konstante) positiv definite Matrix darstellt . 128 

Bedingte ML-Schätzer haben unter bestimmten Voraussetzungen - die aber i.a. nicht leicht 
zu verifizieren sind - dieselben asymptotischen Eigenschaften wie ML-Schätzer . 129 Es ist 



127 Vgl. Greene [1997], S. 321 ff. 

128 Vgl. z.B. Greene [1997], S. 322 ff., oder Judge u.a. [1985], S. 164 ff. 
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deshalb zu vermuten, daß die asymptotischen Aussagen auch für die übrigen heteroskedasti- 
schen Fälle (3) und (5) gültig sind, wenn man hier voraussetzt, daß 

plim-X’Q-'X = Q , 

r->ao T 

wobei Q wieder eine (konstante) positiv definite Matrix darstellt. 

Für Zeitreihenmodelle schließlich bleiben die Konsistenz, die asymptotische Effizienz und 
die asymptotische Normalverteilung erhalten, falls der Prozeß stationär ist. 130 Die Informati- 
onsmatrix hat eine ähnliche Gestalt wie im Falle nichtstochastischer Regressoren, wobei hier 
die Momentenmatrix durch die Varianz-Ko varianz-Matrix von y x ,...,y p zu ersetzen ist. 131 

6.1. 1.2 Unbekannter Schwellenwert 

Wenn die Aufteilung der Stichprobe auf die beiden Zustände geschätzt werden muß, lassen 
sich i.d.R. keine Aussagen über die exakte Verteilung der ML-Schätzer mehr machen. Auch 
die asymptotische Theorie der ML-Schätzer ist hier nicht ohne weiteres anwendbar, da infolge 
der Unstetigkeiten in der Likelihood-Funktion die Regularitätseigenschaften verletzt sind, die 
für diese asymptotischen Eigenschaften Voraussetzung sind. Dennoch läßt sich zeigen, daß 
die ML-Schätzer auch in diesem Fall gute Eigenschaften haben. In Chan [1988] wird gezeigt, 
daß für reine Zeitreihen-Schwellenmodelle (SETAR-Modelle) mit unbekanntem Schwellen- 
wert i.a. 

• die ML-Schätzer stark konsistent, 132 also auch (schwach) konsistent sind, 

• der ML-Schätzer für c sogar superkonsistent von der Ordnung in Wahrscheinlichkeit T ist, 
d.h. 

plimT(c-c) = 0 , 

* 

• die ML-Schätzer für die Regressionsparameter asymptotisch normalverteilt sind, mit der- 
selben Varianz-Ko varianz-Matrix wie im Falle eines bekannten Schwellenwertes, 

• die ML-Schätzer für die Regressionsparameter und die für den Schwellenwert asympto- 
tisch unabhängig sind. 133 



129 Vgl. z.B. GOURIEROUX und M0NF0RT [1995a], S. 198. ff, und GOURIEROUX und Monfort [1995b], Kapitel 
24. 

130 Vgl. JUDGE u.a. [1985], S. 238 f. 

131 Vgl. Harvey [1993], S. 130 f. 

132 D.h. die Schätzer konvergieren mit wachsendem Stichprobenumfangyhsf sicher gegen die wahren Parameter. 

133 Vgl. hierzu auch TONG [1990], Kapitel 5.5.3. 
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Es ist zu vermuten, daß diese Aussagen unter geeigneten Annahmen über die Regressoren 

( lim(l/r) X'Q -, X = Q bzw. plim(l/r) X'Q -1 X = Q ) auch auf die hier betrachteten Fälle mit 

7 ’" >c0 

exogenen Regressoren ausgedehnt werden können. Der ML-Schätzer für den Schwellenwert 
hingegen ist nicht asymptotisch normalverteilt. 134 



6.1.2 Mischungs- und Markov-Modelle 



Über die exakte Verteilung der ML-Schätzer kann man für Mischungs- und Markov-Modelle 
i.a. keine Aussagen machen. Auch die allgemeine Theorie der ML-Schätzer läßt sich hier 
nicht ohne weiteres anwenden, da eine wichtige Voraussetzung, die man benötigt (falls sie 
nicht durch andere Annahmen ersetzt werden kann, wie im Falle eines gewöhnlichen Regres- 
sionsmodells oder eines Modells mit beobachteten Zuständen 135 ), hier nicht erfüllt ist, näm- 
lich die identische Verteilung der Stichproben zu verschiedenen Zeitpunkten. 

Ein besonderes Problem tritt im heteroskedastischen Fall auf: Die Likelihood-Funktion ist 
unbeschränkt. Sie lautet z.B. für Markov-Modelle (vgl. Kapitel 4.3 , S. 49) 

/(y I x, w,y 0 ) = £/(y,s | x, w,y 0 ) 

s 







f= 2 



/0> 1 |* 1 ,x 1 ,w 1 )P(* 1 |r„,x,w) . 



Wählt man die Regressionsparameter für einen der beiden Zustände, etwa a und ß { , so, daß 



das Residuum zu einem beliebigen (festen) Zeitpunkt to gleich 0 ist, so gilt 



lim f(y, |s, = 1,X, ,W, )=lim 

a _*o J v *^ { o 1 'o ’ h’ 'o ' „ va 



2(7 2 



o-,->0 'j2no l 



lim — L— = oo . 

CTj-*0 v2rca, 



Wählt man nun 02 * 0, so ist 



(y,- W,«-X,/3,) 2 

f(yM = 2,x„w,)= ■ e 2 °‘> >0 , 

\2 na x 

fl für t = t 0 

und für s = (s,), =1 T mit p ( s i IVi)*0 0 = 2,. ..,7) und 

P(s, |r o ,X,W)*0 gilt 

lim/(y,s|X,W,y 0 ) = » . 



134 Zur seiner asymptotischen Verteilung vgl. CHAN [1988] und TONG [1990], S. 293 ff. 

135 Vgl. Kapitel 6.1. 
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Damit gilt auch 

lim /( y | X,W,7 0 ) = lim £/( y,s | X, W,r 0 ) = oo . 

(Tj-*00 CTj— 

Die größte (nämlich unendlich große) Likelihood hat folglich ein Modell ohne Residuum für 
genau eine Beobachtung, das aber sicher nicht sonderlich geeignet ist, reale Phänomene zu 
beschreiben. In empirischen Anwendungen hat sich jedoch gezeigt, daß man sinnvolle Schät- 
zergebnisse erhält, wenn man als Schätzwert ein lokales Maximum der Likelihood-Funktion 
(möglichst das mit dem größten Wert der Likelihood unter allen lokalen Maxima) wählt. Tat- 
sächlich läßt sich für homogene Modelle ohne verzögert endogene Regressoren zeigen, daß 136 

• es für große T nur ein einziges lokales Maximum der Likelihood-Funktion gibt, und daß 
der zugehörige Schätzer konsistent ist 

• dieser Schätzer asymptotisch erwartungstreu und normalverteilt ist, wobei die asymptoti- 
sche Varianz-Ko varianz-Matrix gleich der Inversen der Informationsmatrix ist. 

Für inhomogene Modelle mit verzögert endogenen Regressoren existieren keine derart ge- 
schlossenen Ergebnisse. Dennoch gibt es Resultate, die die Annahme gerechtfertigt erschei- 
nen lassen, daß die ML-Schätzer auch in diesen Fällen ähnlich gute Eigenschaften aufwei- 
sen. 137 Deswegen gehen die meisten Autoren von der Gültigkeit dieser Eigenschafen aus, 
auch wenn sie (bisher) nicht in allen Fällen nachgewiesen werden konnten. 

6.2 Tests 

Bei der Vielzahl von Regimewechselmodellen, die in den vorangegangenen Kapiteln behan- 
delt wurden, ist es in Anwendungen unverzichtbar, über ein objektives Entscheidungskriteri- 
um in Form von statistischen Tests zu verfügen, die Auskunft darüber geben, ob ein Regime- 
wechselmodell die vorliegenden Daten signifikant besser beschreibt als ein gewöhnliches 
(lineares) Modell, und wenn ja, welches Regimewechselmodell angebracht ist. 

Die erste Frage führt auf Tests von linearen gegen Regimewechselmodelle. Diese Tests, die 
am Anfang jeder ökonometrischen Untersuchung mit Hilfe von Regimewechselmodellen ste- 
hen sollten, werden (nach einer kurzen Einführung in die Problematik asymptotischer Tests 
im Zusammenhang von Regimewechselmodellen in Kapitel 6.2.1) in Kapitel 6.2.2 behandelt. 

Die zweite Frage läßt sich noch einmal unterteilen in zwei verschiedene Problemstellungen. 
Zum einen kann man daran interessiert sein, zwischen Regimewechselmodellen mit verschie- 



136 Für Mischungsmodelle vgl. KIEFER [1978], für Markov-Modelle vgl. LEROUX [1992]. 

137 Vgl. Lee [1991], chapter 5. 
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denen Mechanismen, die die Zustandswechsel bestimmen, auszuwählen. Typische Fragen in 
diesem Kontext sind etwa, ob die Zustände Permanenz zeigen, die auf ein Markov-Modell 
hinweist, oder ob ein Mischungsmodell mit unabhängigen Zuständen die Daten (fast) genau 
so gut beschreibt; oder, ob der Einfluß eines beobachteten Zustandsindikators auf die Abfolge 
der Zustände signifikant ist, so daß ein inhomogenes (Mischlings- oder Markov-)Modell 
deutlich angebrachter erscheint als das entsprechende homogene Modell. Diese Testsituatio- 
nen werden in Kapitel 6.2.3 untersucht. 

Zum anderen kann man Hypothesen über die Regressionsparameter eines Regimewechsel- 
modells testen, d.h. zwischen Modellen auswählen, für die die Dynamik des Zustandsprozes- 
ses dieselbe ist, die sich aber in der Spezifikation in den einzelnen Zuständen unterscheiden, 
also in der Auswahl der Regressoren, der autoregressiven Dynamik oder der Zustandsabhän- 
gigkeit einzelner Regressionsparameter bzw. der Störvarianz. Geeignete Tests dieser Hypo- 
thesen werden in Kapitel 6.2.4 behandelt. 138 

In Kapitel 6.2.5 schließlich wird ein Verfahren beschrieben, mit dem man zwischen ge- 
trennten Modellen, von denen sich also keines durch Restriktion aus dem anderen ergibt, 
testen kann. 

6.2.1 Asymptotische Tests im Kontext von Regimewechselmodellen 

In vielen der angesprochenen Testsituationen werden die üblichen asymptotischen Tests, d.h. 
der Likelihood-Quotienten-(LQ-)Test, der Wald- und der Lagrange-Multiplikatoren- 
(LM-)Test verwendet. Diese Tests besitzen die bekannten asymptotischen Optimalitätseigen- 
schaften: Sie sind i.a. asymptotisch lokal most powerful, und sie sind konsistent (d.h. ihre 
Macht oder power konvergiert für wachsende Stichproben gegen 1), wenn die ML-Schätzer 
konsistent sind, was ja, wie die Diskussion in Kapitel 6.1 gezeigt hat, i.d.R. der Fall ist. 139 In 
den meisten Situationen, in denen diese Tests verwendet werden, ist zwar nur wenig über die 
Güte der Approximation der Verteilung der Teststatistiken durch die entsprechende 
% 2 - Verteilung in Abhängigkeit vom Stichprobenumfang bekannt (also über das tatsächliche 



138 In der Literatur sind darüber hinaus noch diagnostische Tests vorgeschlagen worden, also allgemeine Anpas- 
sungstests, mit denen nach Wahl eines Regimewechselmodells überprüft werden kann, ob neben dem Zustands- 
wechsel noch weitere Effekte vorliegen, die einer besonderen Modellierung bedürfen, wie etwa Autokorrelation 
der Residuen oder verallgemeinerte ARCH-Effekte. Vgl. hierzu Hamilton [1996]. 

139 Vgl. hierzu z.B. ENGLE [1984], S. 796 ff., oder GOURIEROUX und MONFORT [1995b], Kapitel 17.2.1-17.2.3. 
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Niveau der Tests). 140 Dennoch werden sie häufig angewendet, da sie in vielen Fällen die ein- 
zigen allgemein akzeptierten Testverfahren darstellen. 

Im allgemeinen sind diese Tests unter den gleichen Bedingungen, unter denen die ML- 
Schätzer asymptotisch normalverteilt sind, gültig (d.h. die Teststatistiken sind asymptotisch 
£ 2 - verteilt). Wie in Kapitel 6.1 erläutert wurde, liegt eine asymptotische Normalverteilung in 
manchen Fällen (z.B. unter bestimmten Voraussetzungen bei bekannter Regimeklassifikation) 
vor. In anderen Fällen (z.B. bei abhängigen Beobachtungen wie im Fall von Markov- 
Modellen) liegen (noch) keine strengen Beweise dafür vor. Es wird aber in der Literatur von 
der Gültigkeit der Normalverteilung ausgegangen, und die Verwendung der asymptotischen 
Tests ist weit verbreitet. In wieder anderen Fällen sind die ML-Schätzer einiger Parameter 
definitiv nicht asymptotisch normalverteilt (wie etwa im Falle eines Schwellenmodells mit 
unbekanntem Schwellenwert der ML-Schätzer dieses Schwellenwertes). Hier können die 
asymptotischen Tests nicht in ihrer üblichen Form angewendet werden. 

Eine weitere Komplikation ergibt sich bei den Linearitätstests dadurch, daß in den meisten 
Fällen einer oder mehrere Modellparameter der Alternative unter der Nullhypothese nicht 
identifiziert sind. Dies fuhrt dazu, daß die üblichen Teststatistiken nicht die erwartete asym- 
ptotische % 2 - Verteilung besitzen. 141 Auf diese Schwierigkeiten wird in den folgenden Kapiteln 
genauer eingegangen, und es werden möglichst praktikable Modifikationen der gängigen 
asymptotischen Tests vorgeschlagen. 

Unter der Voraussetzung, daß die ML-Schätzer asymptotisch normalverteilt sind, sind die 
drei Tests asymptotisch äquivalent. Für endliche Stichproben kann und wird es aber Vorkom- 
men, daß sie zu unterschiedlichen Ergebnissen fuhren, so daß die Auswahl des zu verwenden- 
den Testverfahrens von Bedeutung ist. Die Testtheorie liefert keine grundsätzlichen Anhalts- 
punkte für eine Entscheidung für einen dieser drei Tests, weswegen man sie aus praktischen 
Erwägungen heraus treffen wird. Ein Vorteil des LM-Tests bzw. des Wald-Tests ist, daß man 
zur Berechnung der Teststatistik die Likelihood-Funktion nur unter der Nullhypothese bzw. 
unter der Alternative zu maximieren braucht, während der LQ-Test die Berechnung beider 
Maxima erfordert. Andererseits ist zur Berechnung der LM- bzw. der Wald-Statistik die Be- 
stimmung eines Schätzers der Informationsmatrix an dem jeweiligen Maximum nötig. Dies 
kann ein komplexes Problem darstellen. Wenn man jedoch einen Schätzalgorithmus verwen- 

140 In einigen wenigen Fällen läßt sich die Verteilung der Teststatistiken (oder dazu äquivalenter, d.h. streng 
monoton von ihnen abhängenden Größen) explizit angeben. Darauf wird im folgenden an den entsprechenden 
Stellen genauer eingegangen. 

141 Vgl. zu diesem Problem Davies [1977, 1987], Engle [1984], S. 823 f., und Andrews und Ploberger 
[1994]. 
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det, der mit solchen geschätzten Informationsmatrizen arbeitet (vgl. 4.3.1), erhält man nach 
Konvergenz des Verfahrens automatisch einen solchen Schätzer der Informationsmatrix an 
der Stelle des Maximums, und kann damit die Teststatistiken bequem berechnen. Allerdings 
ergibt sich aus der Möglichkeit, zwischen den verschiedenen Schätzern für die Informations- 
matrix auszuwählen, die i.a. auch zu verschiedenen Werten der Teststatistiken fuhren, eine 
zusätzliche Mehrdeutigkeit in dem jeweiligen Testproblem. 142 

In der Literatur über Regimewechselmodelle ist eine leichte Bevorzugung des LQ-Tests 
gegenüber den anderen beiden asymptotischen Tests zu beobachten. Dies zeigt sich besonders 
daran, daß in Fällen, in denen die asymptotische Verteilung der Teststatistiken fraglich ist, in 
aller Regel Simulationen für die LQ-Teststatistik durchgeführt werden. Das mag an der oben 
geschilderten Notwendigkeit der Bestimmung von geschätzten Informationsmatrizen für die 
anderen beiden Tests liegen, oder daran, daß der LQ-Test (in Verbindung mit dem Neymann- 
Pearson-Lemma) den ursprünglichsten und intuitiv einleuchtendsten Zugang zum Testpro- 
blem darstellt, während die anderen beiden Tests gewöhnlich als Approximationen des LQ- 
Tests angesehen werden. Ein weiterer Grund ist, daß der LQ-Test im Zusammenhang mit dem 
Problem nicht identifizierter Parameter relativ robust ist, während die Verteilung der Wald- 
und der LM-Teststatistik offensichtlich extreme Parameterabhängigkeit aufweist. 143 

Aus diesen Gründen wird im folgenden an einigen Stellen der LQ-Test verwendet, an de- 
nen auch die anderen beiden Tests hätten in Betracht gezogen werden können. Dadurch soll 
eine größtmögliche Vergleichbarkeit der hier präsentierten Ergebnisse mit denen aus der Lite- 
ratur erreicht werden. 

6.2.2 Tests linearer Modelle gegen Regimewechselmodelle 

Alle Regimewechselmodelle enthalten als Spezialfalle lineare Modelle ohne Zustandswech- 
sel. Man erhält sie z.B. durch die Restriktion, daß alle Regressionsparameter in den verschie- 
denen Zuständen identisch sind. Es hat sich die Auffassung durchgesetzt, daß auf ein Modell 
mit mehreren Zuständen nur geschlossen werden sollte, wenn die Abweichung von dem ent- 
sprechenden gewöhnlichen Modell mit einem Zustand signifikant ist. Damit stellt sich die 
Frage nach Tests der Nullhypothese eines gewöhnlichen Regressions- oder Zeitreihenmodells 
gegen die Alternative eines Modells mit mehreren Zuständen. 



142 Gelegentlich wird auch, basierend auf der asymptotischen Normalverteilung der Parameter, mit asymptoti- 
schen /-Tests von Hypothesen über einzelne Parameter mit Hilfe von geschätzten asymptotischen Varianz- 
Kovarianz-Matrizen argumentiert. Vgl. hierzu den Anhang von Kapitel 7. 

143 Vgl. hierzu LEE und CHESHER [1986] und DUFOUR [1995]. 
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Den allgemeinen Linearitätstests 144 sind wegen ihrer vergleichsweise geringen Macht 
grundsätzlich solche mit klar spezifizierter Alternative vorzuziehen. Hier bieten sich die übli- 
chen asymptotischen Tests an. Diese können ohne Modifikation nur im Fall von Schwellen- 
modellen mit bekanntem Schwellenwert angewendet werden, die deswegen in Kapitel 
6.2.2. 1 . 1 gesondert behandelt werden. 

In den übrigen Fällen tritt das bereits erwähnte Problem auf, daß einige der Modellparame- 
ter der Alternative unter der Nullhypothese nicht identifiziert sind. Diese sogenannten Störpa- 
rameter ( nuisance parameters ) sind bei Schwellenmodellen der Schwellenparameter, bei Mi- 
schungsmodellen die Aufenthaltswahrscheinlichkeit und bei Markov-Modellen die Start- und 
Übergangswahrscheinlichkeiten bzw. (im inhomogenen Fall) die Parameter, die die Abhän- 
gigkeit dieser Größen von dem Zustandsindikator festlegen. Damit sind die Regularitätsvor- 
aussetzungen nicht erfüllt, die sicherstellen, daß die Teststatistiken der asymptotischen Tests 
asymptotisch % 2 («)-verteilt sind (wobei n die Anzahl der linear unabhängigen Restriktionen 
bezeichnet). Deswegen können diese Tests nicht unverändert verwendet werden. In den Ka- 
piteln 6.2.2. 1.2 und 6.2.2.2 werden verschiedene Modifikationen dieser Tests für Schwellen- 
modelle mit unbekanntem Schwellenwert und für Mischlings- und Markov-Modelle disku- 
tiert. 

Es gibt einige theoretische Resultate über die Verteilung der LQ-Statistik in diesen Fällen. 
Nachdem die verschiedenen Modelltypen längere Zeit getrennt voneinander untersucht wur- 
den, ist in der letzten Zeit der Versuch unternommen worden, einen einheitlichen Zugang zu 
dem Problem der Linearitätstests für Markov-Modelle und Schwellenmodelle mit unbekann- 
tem Schwellenwert zu entwickeln. In Garcia [1998] wird für einfach strukturierte Modelle 
gezeigt, daß in beiden Fällen die LQ-Statistik gegen ein Funktional einer Brownschen Brücke 
konvergiert. Dies gilt aber nur, falls man geeignete a-priori-Restriktionen für den Wert des 
Störparameters einführt. Man muß etwa p n und p 22 auf ein kompaktes Intervall [a,l-a] be- 
schränken, das echt in [0,1] enthalten ist, bzw. den Schwellenwert c auf den Bereich zwischen 
dem a- und dem (l-a)-Quartil der empirischen Verteilung von z h wobei a = 0,15 üblich 
ist. 145 

Da diese Grenzverteilung aber abhängig von den wahren Parametern ist, ist der Anwender 
nach wie vor auf Simulationen der Verteilung der Teststatistik angewiesen. Im folgenden wird 

144 Zu diesen auch als Portmanteau - Tests bezeichneten Tests vgl. TONG [1990], S. 221-229 und TerAsvirta, 
TJ0STHEIM und Granger [1994], S. 2930-2933. 

145 Der Beweis hierzu wird bei CARRASCO [1997] auf komplexere Modelle ausgedehnt. Die Arbeit von Garcia 
[1998] kursierte bereits seit 1995 als Cahier de Recherche Nr. 1095 der Universitä de Montreal, sie ist also tat- 
sächlich älter als die von Carrasco. 
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daher vorwiegend auf Näherungsformeln, eigene Simulationen für LQ-Tests und Simulati- 
onsergebnisse aus der Literatur eingegangen. Es wird gezeigt, daß sie sich in einfachen Faust- 
regeln zusammenfassen lassen, die für empirische Anwendungen nützlich sind. 

6 . 22.1 Schwellenmodelle 



6.2.2.1.1 Bekannter Schwellenwert 

In Kapitel 4.2.1 wurde dargelegt, daß im Falle eines bekannten Schwellenwertes, also bei be- 
obachtbaren Zuständen, Schwellenmodelle als gewöhnliche Regressionsmodelle mit speziel- 
ler Regressormatrix angesehen werden können. 146 

Die Nullhypothese eines Modells ohne Zustandswechsel entspricht dabei der Restriktion, 
daß die regimeabhängigen Parameter (inklusive der Störvarianzen) in den beiden Zuständen 
gleich sind. Dies ist eine lineare Hypothese über die Regressionsparameter, die im Falle eines 
homoskedastischen Modells mit exogenen Regressoren mit dem üblichen F-Test getestet 
werden kann, der in diesem Fall dem exakten LQ-Test (für endliche Stichproben) entspricht. 

Ist die Alternative ein heteroskedastisches Modell, so kann man entweder zuerst den eben 
erwähnten F-Test durchführen und danach, falls die Nullhypothese verworfen wurde, einen 
weiteren Heteroskedastietest (vgl. Kapitel 6.2.4). Oder man kann direkt einen der üblichen 
asymptotischen Tests mit einem heteroskedastischen Modell als Alternative verwenden. 



6.2.2. 1.2 Unbekannter Schwellenwert 



Muß der Schwellenwert geschätzt werden, so tritt das oben erwähnte Problem auf, daß dieser 
Parameter unter der Nullhypothese, daß die Regressionsparameter in den beiden Zuständen 
(und gegebenenfalls die Störvarianzen) gleich sind, nicht identifiziert ist und deswegen die 
klassischen Tests nicht die üblichen asymptotischen % 2 - Verteilungen besitzen. 147 

Für empirische Untersuchungen können in einigen Fällen die Simulationsstudien von Chan 
[1991] verwendet werden. Dieser Autor verwendet nicht die gewöhnliche LQ-Statistik 



X = Flog 






146 Deswegen sind Tests auf Regimewechsel in diesem Fall eigentlich keine ”Linearitätstests” im engeren Sinne 
(die Alternative ist formal ebenfalls ein lineares Modell). 

147 Einige theoretische Ergebnisse über LQ-Tests der Nullhypothese eines autoregressiven Modells gegen die 
Alternative eines Zeitreihen-Schwellenmodells, die aber für empirische Untersuchungen nicht besonders hilf- 
reich sind, finden sich in CHAN [1990], TONG [1990], CHAN und TONG [1990], S. 233 ff., HANSEN [1996] sowie 
in den oben erwähnten Arbeiten von CARRASCO [1997] und Garcia [1998]. 
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6 Asymptotische Eigenschaften der ML-Schätzer und Tests 



wobei 6 2 Hq und cf^ die ML-Schätzer der Fehlervarianzen unter der Nullhypothese und unter 
der Alternative sind, sondern die Statistik 




Chan [1991] berechnet kritische Werte für diese Statistik für SETAR-Modelle aus Simulatio- 
nen mit einigen wenigen Parameterwerten. Da X' eine streng monotone Funktion von X ist, 
lassen sich aus diesen simulierten Werten auch kritische Werte für die gewöhnliche LQ- 
Statistik X berechnen. Vergleicht man diese mit denen von regulären LQ-Tests (also mit den 
kritischen Werten % 2 («) a , wobei n die Anzahl der zusätzlichen freien Parameter des Altema- 
tivmodells inklusive des Schwellenwertes und a das gewählte Niveau des Tests darstellt), so 
läßt sich etwas vereinfachend sagen, daß die simulierten Werte den kritischen Werten einer 
% 2 («+/?')-Verteilung entsprechen, wobei die "Korrektur der Freiheitsgrade” ri etwa 1-2 für 
niedrige Werte von n beträgt und für größere Werte von n anwächst (auf etwa 3-4 bei n = 20). 
Exakte Angaben über das tatsächliche Signifikanzniveau lassen sich mit dieser groben Regel 
natürlich nicht machen. In vielen Anwendungen, in denen beobachtete Werte der LQ-Statistik 
weit ober- oder unterhalb dieser Grenze liegen, kann man damit aber fundierte Aussagen über 
die Bedeutung eines Schwellenmodells im Vergleich zu einem linearen Modell machen. 148 

6.2.2.2 Mischlings- und Markov-Modelle 

Formuliert man die Nullhypothese eines linearen Modells dadurch, daß die Regressionspara- 
meter in den beiden Zuständen (und gegebenenfalls die Störvarianzen) gleich sind, so sind für 
Mischungsmodelle die Aufenthaltswahrscheinlichkeit p und für Markov-Modelle die Start- 
wahrscheinlichkeit p und die Übergangswahrscheinlichkeiten p u und p 22 unter der Nullhy- 
pothese nicht identifiziert. 149 Damit sind die gängigen asymptotischen Tests auch hier nicht 
ohne Modifikation anwendbar. 150 

148 Eine weitere Möglichkeit in diesem Zusammenhang stellen Tests linearer gegen STAR-Modelle dar, die 
verallgemeinerte Schwellenmodelle darstellen (vgl. Kapitel 2.1, besonders Fußnote 9). Es ist zu vermuten, daß 
diese Tests im Vergleich zu Tests mit unspezifizierter nicht linearer Alternative vergleichsweise große Macht 
gegen Schwellenmodelle besitzen. Vgl. hierzu LUUKKONEN, Saikkonen und TerAsvirta [1988]. 

149 Man kann die Nullhypothese für Mischungsmodelle auch durch p = 1 (oder p = 0) formulieren, so daß nur ein 
Zustand eintreten kann. Dann sind die Regressionsparameter des anderen Zustandes unter der Nullhypothese 
nicht identifiziert, und überdies wird die Nullhypothese nicht mehr durch einen Wert im Inneren des zulässigen 
Parameterbereichs beschrieben, wie es die übliche asymptotische Testtheorie erfordert, sondern durch einen 
Wert am Rand des zulässigen Parameterbereichs. Eine analoge Bemerkung gilt für Markov-Modelle. 

150 Obwohl das Problem der nicht identifizierten Parameter schon lange bekannt ist und in der Literatur wenig- 
stens seit der Arbeit von Davies [1977] diskutiert wird, wird es in Anwendungen immer wieder ignoriert, etwa 
von Kon [1984] oder BOOTHE und Glassman [1987]. 
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Obwohl diesem Problem in letzter Zeit verstärkte Aufmerksamkeit gewidmet worden ist, 151 
liegt bisher kein überzeugender Ansatz für empirische Untersuchungen vor. Hier bieten sich 
verschiedene praktikable Möglichkeiten an. In einigen Fällen kann man auf die simulierten 
Werte von Garcia [1998] zurückzugreifen, der u.a. die empirische Verteilung der LQ- 
Statistik bestimmt hat, wenn die Nullhypothese ein Modell ohne Regressoren bzw. mit auto- 
regressiven Größen und die Alternative das entsprechende homo- bzw. heteroskedastische 
Markov-Modell mit zustandsabhängiger Konstante ist. Seine Schlußfolgerung für das homos- 
kedastische Modell ohne Regressoren lautet 

"... that these critical values for the likelihood ratio are considerably higher than the 
values of % 2 (1), the distribution of the LR test in the classical theory. ” 152 
Dabei muß man aber beachten, daß Garcia die unter der Nullhypothese nicht identifizierten 
Übergangswahrscheinlichkeiten bei diesem Vergleich nicht mitzählt. Evt. hat Garcia auch, so 
wie es in der neueren Literatur zu diesem Themenkomplex öfter getan wird, außer den beiden 
freien Parametern für die Übergangswahrscheinlichkeiten noch einen weiteren freien Para- 
meter für die Startwahrscheinlichkeit verwendet. Die Freiheit in der Wahl dieser Parameter 
unter der Alternative schlägt sich natürlich in einem höheren maximalen Wert der Likelihood- 
Funktion nieder. Deswegen sollte man zum Vergleich seiner simulierten mit den erwarteten 
Werten auch diese zusätzlichen Freiheitsgrade berücksichtigen (wie es in der Literatur auch 
üblich ist) und die simulierten Werte im Beispiel des Modells ohne autoregressive Größen 
denen einer £ 2 (3)- bzw. einer % 2 (4)-Verteilung gegenüberstellen. Dann kommt man zu einem 
ähnlichen Ergebnis wie für Schwellenmodelle mit unbekanntem Schwellenwert: Die kriti- 
schen Werte von Garcia liegen etwas über denen einer ^ 2 (4)- Verteilung, wobei man die Ab- 
weichung durch zusätzliche 1-2 Freiheitsgrade berücksichtigen kann. 153 Zu einem solchen 
Schluß kamen schon Goldfeld und Quandt [1976] in einer Simulationsstudie, bei der die 
Nullhypothese ein lineares Modell und die Alternative ein heteroskedastisches Mischungs- 
modell mit zwei exogenen Regressoren ist: 

"... the appropriate % 2 seems to involve somewhat larger degrees of freedom than would 
be justifled on a priori considerations (5 or 6 versus 4). " 154 

151 Hansen [1992] schlägt einen Test von linearen Modellen gegen Markov-Modelle vor, der aber schwer zu 
implementieren ist, vgl. das Erratum von Hansen [1995]. Garcia [1998] wendet das Verfahren, das Hansen 
[1996] mit Blick auf Schwellenmodelle beschreibt, auf Markov-Modelle an und gewinnt so einige theoretische 
Ergebnisse über die Verteilung der LQ-Statistik. 

152 Vgl. GARCIA [1998], S. 16. Die Ergebnisse für die andere untersuchten Modelle sind ähnlich. 

153 Für die anderen in Garcia [1998] betrachteten Modelle ist das Bild ähnlich. 

154 GOLDFELD und Quandt [1976], S. 21. Diese Autoren zählen die unter der Nullhypothese nicht identifizierten 
Parameter mit. 
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6 Asymptotische Eigenschaften der ML-Schätzer und Tests 



Eine Alternative zu simulierten Werten stellt der Ansatz von Davies [1977, 1987] dar, der 
eine Näherungsformel für die kritischen Werte von LQ-Tests angibt, die allgemein gültig ist, 
falls ein (eindimensionaler) Parameter unter der Alternative nicht identifiziert ist. Sie lautet 

P(LQ >M)« P(x 2 (s) >M) + VM~ 2<S ~' } e~^2^ S /r{^s) , 
wobei LQ den Wert der LQ-Statistik bezeichnet, s die Anzahl der linear unabhängigen Re- 
striktionen von identifizierten Parametern, und V die totale Variation von LQ(0f 2 als Funk- 
tion des nicht identifizierten Parameters 0 über den zulässigen Bereich [ a , b ] , also 

b 

r-l 

Diese Näherungsformel, die in der Literatur auch als ” Davies ’ quick rule ” bezeichnet wird, 
läßt sich z.B. für Mischungsmodelle mit 0 - p verwenden. Boldin [1990] argumentiert, daß 
LQ(p)V 2 für Mischungsmodelle i.d.R. nur ein Maximum hat, so daß (da an den Rändern des 
zulässigen Parameterbereichs, also bei p = 0 und p = 1, LQ(p ) = 0 gilt) V dem doppelten 
Wert des Maximums der Funktion entspricht, d.h. V - 2M l/1 , und damit 

P(LQ > M) « P(x 2 (s) >M)+ 2~? /y{{s) . 

Daraus lassen sich approximative kritische Werte für verschiedene Werte von s berechnen, 
die in Tabelle 6 wiedergegeben sind. 



dLQiß) 



1/2 



d6 



de 



Anzahl der 
Restriktionen 


Niveau 


s 


10% 


5% 


1% 


1 


6,25 


7,81 


11,34 


2 


9,26 


10,95 


14,72 


3 


11,71 


13,50 


17,45 


4 


13,91 


15,79 


19,89 


5 


15,95 


17,89 


22,16 


6 


17,90 


19,89 


24,28 


7 


19,74 


21,81 


26,32 


8 


21,54 


23,67 


28,30 


9 


23,30 


25,48 


30,20 


10 


25,01 


27,24 


32,06 



Tabelle 6: Kritische Werte des LQ-Tests für homogene Mischungsmodelle mit s unabhängigen Restriktionen 
von identifizierten Parametern mit Hilfe der Approximation von DAVIES [1987]. 

Will man diese kritischen Werte mit den oben erwähnten simulierten kritischen Werten ver- 
gleichen, so muß man zu dem Wert von s noch einen Freiheitsgrad addieren, der dem (unter 
der Nullhypothese nicht identifizierten) Parameter p entspricht. Damit erhält man wiederum 
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das Resultat, daß man für kleine Werte von s kritische Werte aus einer % 2 (/t)- Verteilung mit 
einer Korrektur der Freiheitsgrade um 1-2 nach oben verwenden kann, die für große Werte 
von s anwächst. 155 

Dies ist natürlich nur eine sehr grobe Faustregel. Man muß aber berücksichtigen, daß die 
exakten kritischen Werte (die man wegen der relativ aufwendigen ML-Schätzung von Regi- 
mewechselmodellen nicht für jedes in Frage stehende Modell mit Hilfe von Simulationen 
berechnen kann) nicht unerheblich von den wahren Parametern abhängen, wie die Untersu- 
chungen in Garcia [1998] zeigen. Die Variation der kritischen Werte für unterschiedliche 
Parameter liegt bereits in der Größenordnung des Fehlers, den man mit dieser Regel begehen 
wird. 

In Anbetracht dieser (wenigstens für kleine bis mittlere Werte von s ) übereinstimmenden 
Ergebnisse für Schwellenmodelle mit unbekanntem Schwellenwert und für homogene Mi- 
schlings- und Marko v-Modelle ist davon auszugehen, daß die erwähnte Faustregel für die 
kritischen Werte auch für inhomogene Mischlings- und Markov-Modelle, die als Verallge- 
meinerungen der entsprechenden homogenen Modelle sowie von Schwellenmodellen aufge- 
faßt werden können, gelten wird. 156 Man sollte also ein lineares Modell zum Niveau a ver- 
werfen, wenn die LQ-Statistik größer als % 2 (n+n') a ist, wobei n gleich der Anzahl aller (linear 
unabhängigen) Restriktionen von identifizierten und nicht identifizierten Parametern und n' 
der oben erwähnte Korrekturterm ist. 

6.2.3 Tests zwischen Regimewechselmodellen mit verschiedener Dynamik des 
Zustandsprozesses 

Um sich einen Überblick über die denkbaren Hypothesen, die sich auf die Zustandsprozesse 
von Regimewechselmodellen beziehen, zu verschaffen, ist ein Blick auf Abbildung 3 (S. 15) 
hilfreich, in der erläutert wird, welche Modelle sich durch Einschränkung aus anderen erge- 
ben. Einige dieser Restriktionen, jedoch nicht alle, sind gewöhnliche explizite Restriktionen 
von Parametern, bei denen man (wie in Kapitel 6.1 dargelegt) davon ausgehen kann, daß die 
ML-Schätzer der betreffenden Parameter asymptotisch normalverteilt sind, so daß sich diese 
Restriktionen mit den klassischen Tests überprüfen lassen. 157 In anderen Fällen liegt diese 
asymptotische Normalverteilung nicht vor, und die klassischen Tests müssen modifiziert wer- 

155 Die Korrektur wächst mit dieser Approximationsformel allerdings auf 5-6 für s = 10 an. Die oben erwähnten 
Simulationsergebnisse zeigen aber, daß dies wohl auf mangelnde Präzision der Approximation zurückzuführen 
ist. 

156 Hier werden natürlich unter Umständen mehr (bei einem skalaren Regimeindikator bis zu 5) freie Parameter 
für die Modellierung des Zustandsprozesses verwendet, die unter der Nullhypothese nicht identifiziert sind. 

157 D.h. daß die üblichen Teststatistiken asymptotisch % 2 -verteilt sind. 
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6 Asymptotische Eigenschaften der ML-Schätzer und Tests 



den. In den folgenden Kapiteln werden diese Restriktionen und eventuelle Abweichungen von 
den entsprechenden % 2 - Verteilungen untersucht. 



6.2.3. 1 Tests zwischen verschiedenen Typen von Schwellenmodellen 

Einen interessanten Fall stellen Tests von Hypothesen über den Schwellenwert eines Schwel- 
lenmodells dar, dessen ML-Schätzer ja nicht asymptotisch normalverteilt ist (vgl. 
Kapitel 6. 1.1. 2). Die Nullhypothese stellt hier also ein Schwellenmodell mit bekanntem, die 
Alternative eines mit unbekanntem Schwellenwert dar. Eine Vorstellung von der Verteilung 
der LQ-Teststatistik in dieser Situation vermittelt Tabelle 7, in der einige kritische Werte aus 
einer Simulation ftir diesen Fall wiedergegeben sind. 



Niveau 


10% 


5% 


1 % 


kritischer Wert 


3,55 


5,14 


9,33 



Tabelle 7: Kritische Werte der LQ-Statistik aus 10.000 Realisationen einer Simulation unter der Nullhypothese 
eines Schwellenmodells mit bekanntem und der Alternative eines Schwellenmodells mit unbekann- 
tem Schwellenwert 

Zugrundeliegendes Modell: Keine Regressoren, homoskedastisch, Zeitreihenlänge 100 Beobachtun- 
gen, Mittelwerte = 1,0/- 1,0, Störvarianz = 1,0, Schwellenvariable unabhängig identisch standard- 
normalverteilt, Schwellenwert = 0,0 

Wenn man diese Werte mit denen einer % 2 (1)- Verteilung vergleicht (da die Alternative ja 
einen zusätzlichen freien Parameter besitzt, den Schwellenwert), so erkennt man deutliche 
Abweichungen: Der kritische Wert zum 10 %-Niveau liegt etwa in der Mitte zwischen dem 
einer % 2 (1)- und einer % 2 (2)- Verteilung, der zum 1 %-Niveau ist etwas größer als der einer 
% 2 (2)- Verteilung und der zum 5 %-Niveau etwas kleiner. Die Prozentpunkte der simulierten 
Verteilung sind also größer als die einer % 2 (1)-Verteilung, und ihre Form ist anders. 158 



6.2.3.2 Tests zwischen verschiedenen Typen von Mischlings- und Markov-Modellen 



Üblicherweise werden die Aufenthalts- bzw. Übergangswahrscheinlichkeiten inhomogener 
Mischlings- und Markov-Modelle durch logistische Funktionen dargestellt, also etwa für 
Mischungsmodelle 



P( z t) = - 






\ + e 5+y2 ' ’ 

Für inhomogene Markov-Modelle gibt es entsprechend 4 freie Parameter <5j , 8 2 , y, und y 2 . 
Die Nullhypothese eines homogenen gegen die Alternative eines inhomogenen Mischungs- 



158 Da verallgemeinerte Schwellenmodelle in der empirischen Literatur keine nennenswerte Rolle spielen, wird 
auf sie an dieser Stelle nicht näher eingegangen. 
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(bzw. Markov-)Modells läßt sich durch die reguläre Restriktion y =0 (bzw. y x = y 2 =0) 

ausdrücken, so daß p = e 5 /\ + e 5 die konstante Aufenthaltswahrscheinlichkeit in Zustand 1 
darstellt (analog erhält man für Markov-Modelle die konstanten Übergangswahrscheinlich- 
keiten). Die Teststatistiken sollten ^ 2 (1)- bzw. % 2 (2)-verteilt sein. 159 Bei diesem Test wird 
untersucht, ob der Einfluß des Regimeindikators auf die Aufenthalts- bzw. die Übergangs- 
wahrscheinlichkeiten signifikant ist. 

Die klassischen Tests sind vermutlich ebenso gültig für den Test von homogenen oder in- 
homogenen Mischungsmodellen gegen die entsprechenden Markov-Modelle. Die Teststatisti- 
ken sollten, wenn man die Startwahrscheinlichkeit im Zustand 1 als freien Parameter verwen- 
det, im ersten Fall % 2 (2)-verteilt und im zweiten Fall % 2 (3)-verteilt sein. 160 Falls man annimmt, 
daß die Markov-Kette stationär ist, reduziert sich die Anzahl der Freiheitsgrade in beiden 
Fällen um 1. Hier steht die Frage im Vordergrund, ob Autokorrelation der Zustände, die sich 
in längeren Folgen ein und desselben Zustandes ausdrückt, signifikant ist, oder ob die Unab- 
hängigkeit der Zustände mit den Daten vereinbar ist. 

6.2.3.3 Tests von Schwellen- gegen inhomogene Mischungs- und Markov-Modelle 

Wieder anders ist die Situation beim Test von Schwellenmodellen gegen inhomogene 
Mischungs- und Markov-Modelle, bei dem untersucht wird, ob das Über- und Unterschreiten 
des Schwellenwertes durch den Regimeindikator den Wechsel zwischen den Zuständen erklä- 
ren kann, oder ob eine zusätzliche stochastische Komponente die Anpassung des Modells 
deutlich erhöht. Für diese Situationen sind andere Parametrisierungen als die oben erwähnte 
geeigneter, etwa (für inhomogene Mischungsmodelle) 

e Y(:,-c) 

P( - Z '^ = l + e r(! ’- c} ' 

Im Grenzfall y -> oo konvergiert diese Funktion gegen eine Stufenfunktion mit einem Sprung 
bei c, und damit geht das inhomogene Mischungsmodell in ein Schwellenmodell mit 
Schwellenwert c über. Ähnliches gilt für inhomogene Markov-Modelle, die (bei entsprechen- 
der Parametrisierung) im Grenzfall y, -» oo, y 2 -» oo in verallgemeinerte Schwellenmodelle 
übergehen. 161 Diese Testsituationen sind bisher in der Literatur noch nicht untersucht worden. 



159 Dies wird z.B. bei Filardo [1994], S. 302 f., verwendet. 

160 Dies nutzen z.B. COSSLETT und Lee [1985], S. 83 ff. - Hier ließe sich auch ein White-Test verwenden, vgl. 
Hamilton [1996], S. 139 f. 

161 Vgl. hierzu auch Kapitel 2.2.2. 
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Auf solche Restriktionen läßt sich die asymptotische Testtheorie nicht ohne weiteres an- 
wenden. Dennoch könnte man vermuten, daß der Satz über die asymptotische ^-Verteilung 
der üblichen Teststatistiken in diesem Grenzfall weiterhin gültig ist, gilt er doch für jedes be- 
liebig große endliche y. Dem ist aber entgegenzuhalten, daß andere vergleichbare Situationen 
wohlbekannt sind, in denen die Nullhypothese einem „Randfall” eines parametrischen Mo- 
dells entspricht, das - wiewohl „beliebig nahe” an der Alternative - eine gänzlich andere sto- 
chastische Struktur als die Altemativmodelle hat, so daß als Konsequenz dieser Strukturver- 
änderung die üblichen Teststatistiken eine andere Verteilung als unter jeder anderen in Frage 
kommenden Nullhypothese haben. Das bekannteste Beispiel hierfür sind wohl Einwurzeltests: 
Unter der Nullhypothese einer Einheitswurzel ist ein Zeitreihenmodell nicht stationär, und die 
/-Statistik aus der Hilfsregression eines Dickey-Fuller-Tests ist nicht mehr /-verteilt (wie es 
unter der Alternative eines stationären Modells ohne Einheitswurzel der Fall wäre), sondern 
Dickey-Fuller- verteilt. 162 Weitere Beispiele für solche Situationen (in denen die Verteilung 
der üblichen Teststatistiken unbekannt ist) sind der Test der Nullhypothese einer Normalver- 
teilung gegen die Alternative einer /-Verteilung, 163 oder der eines Schwellenmodells gegen 
die Alternative eines STAR-Modells. 164 

Es ist daher nicht unwahrscheinlich, daß die Verteilung der üblichen Likelihood- 
orientierten Teststatistiken in dem betrachteten Fall auch asymptotisch von der erwarteten 
X 2 - Verteilung abweicht. Aus diesem Grund wurden wieder einige Simulationsstudien durch- 
geführt, in denen die Verteilung der LQ-Statistik unter der Nullhypothese eines Schwellen- 
modells und der Alternative eines inhomogenen Mischlings- bzw. Markov-Modells untersucht 
wurde. Die Ergebnisse sind in Tabelle 8 dargestellt. 

Diese kritischen Werte wären zu vergleichen mit denen einer % 2 (2)- bzw. einer % 2 (4)- Ver- 
teilung. Die Werte aus Simulation 1 liegen für das 5 %- und das 10 %-Niveau leicht unter 
denen der erwarteten ^ 2 (2)- Verteilung, und für das 1 %-Niveau darüber. Dies kann auf eine 
prinzipielle Abweichung der hier untersuchten von der in Frage kommenden theoretischen 
Verteilung zurückzufiihren sein, auf mangelnde Asymptotik aufgrund der Zeitreihenlänge von 
100 Beobachtungen, oder auf die Zahl von Simulationen, die aufgrund der aufwendigen 

162 Vgl. hierzu Dickey und Füller [1981], Rüdel [1989] oder Banerjee u.a. [1993]. 

163 Hierfür wird in Boothe und Glassman ohne weitere Rechtfertigung der gewöhnliche LQ-Test verwendet. 

164 Zu STAR-Modellen vgl. Fußnote 9. - Teräsvirta vermutet, daß die asymptotische ^-Verteilung der LQ- 
Statistik auch hier gilt, kann dies aber nicht beweisen (private Mitteilung). Eine Lösung des oben beschriebenen 
Testproblems für diese Situation würde es also auch gestatten, das Schwellenmodell des US-BSP von Potter 
[1995] gegen das STAR-Modell von Granger und Teräsvirta [1993] zu testen, also eine Antwort auf die 
Frage zu geben, ob ein Modell mit abrupten Sprüngen zwischen den Phasen des Konjunkturzyklusses mit den 
Daten verträglich ist, oder ob der ”glatte” Übergang der STAR-Modelle signifikant ist. 
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Schätzverfahren unter der Alternative in diesem Fall relativ gering ist. Einheitlicher ist das 
Bild für Simulation 2: Die simulierten kritischen Werte liegen hier durchgängig zwischen 
denen einer % 2 (3)- und der erwarteten % 2 (4)- Verteilung. 



| Niveau 


10% 


5% 


1 


kritischer Wert 


Simulation 1 


3,89 


5,41 


Esm 


Simulation 2 






HM 



Tabelle 8: Kritische Werte des LQ-Tests aus 1.000 Realisationen einer Simulation unter der Nullhypothese 
eines Schwellenmodells und der Alternative eines Mischungs- und eines Markov-Modells 
Zugrundeliegende Modelle: Nullhypothese wie in Tabelle 7 (100 Beobachtungen,), 

Alternative: Simulation 1: Inhomogenes Mischungsmodell, Simulation 2: Inhomogenes, stationäres 
Markov-Modell 

Zusammenfassend läßt sich sagen, daß die simulierten Werte durchaus in der Größenordnung 
derjenigen der erwarteten ^-Verteilungen liegen. Um kritische Werte zu erhalten, die genaue 
Aussagen über das Niveau von LQ-Tests für diese Situation gestatten, wären selbstverständ- 
lich wesentlich umfangreichere Simulationen als die hier präsentierten erforderlich. Dennoch 
können diese ersten Ergebnisse als Richtschnur in empirischen Untersuchungen verwendet 
werden, insbesondere, wenn die beobachteten Werte der LQ-Statistik deutlich größer oder 
kleiner als die hier angegebenen kritischen Werte sind. 

6.2.4 Spezifikationstests 

Ist man in einer empirischen Anwendung zu dem Schluß gekommen, daß ein bestimmter 
Typ von Regimewechselmodellen angebracht ist, so sollte man noch verschiedene Restriktio- 
nen für die Regressionsparameter testen. Beispiele für solche Hypothesen sind: 

• Ein (oder mehrere) Regressionsparameter ist (sind) nicht zustandsabhängig. 165 

• Die Störvarianz ist nicht zustandsabhängig, d.h. das Modell ist homoskedastisch. 

• Ein Regressor hat nur in einem der beiden Zustände Einfluß auf die abhängige Variable, 
d.h. der Wert des zugehörigen Parameters in dem entsprechenden Zustand ist Null. 

Ist die Aufteilung der Daten auf die Zustände bekannt, so kann man exakte Tests für diese 
Probleme angeben. Auf diese Situation wird in Kapitel 6.2.4. 1.1 eingegangen. In den übrigen 
Fällen, die in den darauf folgenden Kapiteln 6.2.4. 1.2 und 6.2.4.2 behandelt werden, ist man 
auf asymptotische Tests angewiesen. 



165 Diese wichtige Hypothese wird in der Literatur fast völlig vernachlässigt. Eine Ausnahme bilden die Untersu- 
chungen in LÜDEKE [1973]. 
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6 Asymptotische Eigenschaften der ML-Schätzer und Tests 



6.2.4.1 Schwellenmodelle 



6.2.4.1.1 Bekannter Schwellenwert 



Da diese Modelle linear sind (vgl. Kapitel 4.2.1), können lineare Hypothesen über die 
Regressionsparameter im homoskedastischen Fall mit exogenen Regressoren mit dem übli- 
chen F-Test getestet werden (und für Hypothesen, die einzelne Parameter betreffen, ist der 
/-Test anwendbar). Für heteroskedastische Modelle muß man auf die üblichen asymptotischen 
Tests zurückgreifen. 166 

Diese kann man auch für einen Test auf Heteroskedastie anwenden. Eine besondere Situa- 
tion tritt hierbei in dem häufig betrachtet Fall auf, daß alle Regressionsparameter regimeab- 
hängig sind. Dann gilt (mit den Bezeichnungen aus Kapitel 4.2. 1.2, Fall (2) und (3)) für die 
ML-Schätzer der Varianzen g 2 bzw. g 2 und er 2 

±2 _ ffii + ^ 2^2 
T 



Deswegen berechnet sich die LQ-Statistik aus den auf S. 43 angegebenen Werten für das 
Maximum der Log-Likelihood zu 



A = 2 



y lo g(<*i 2 )" y lo g(^2 )+ 2 logfc 2 ) 

U rlog(r) 

G l G 2 ) 



- 2 log ^ 

= 21og((r, + Tjvf (T,V + )- 2T\og(J) 

mit v = <j 1 2 /ct 2 2 . Diese LQ-Statistik ist, wie man an ihren ersten beiden Ableitungen nach v 
sieht, minimal für v = 1 (d.h. er 2 = <f 2 ), streng monoton fallend für v < 1 ( cf, 2 < <f 2 2 ) und 
streng monoton wachsend für v > 1 (er, 2 > <f 2 ). Der exakte LQ-Test ist hier also äquivalent zu 



einem F-Test. Die kritischen Bereiche zum Niveau a für die einseitigen Alternativen er, 2 < er 2 



bzw. of > g\ sind 



<f 2 g 2 

— ^0,71-1, r 2 -i -^-2 



und für die zweiseitige Alternative er 2 * g : 
~2 



-2 - ^a/2,r,-i,r 2 -i > - ^2 > 



166 Vgl. hierzu auch JUDGE u.a [1985], Kapitel 5.7.1. 
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und 

< 7 2 

£2* F aft.T,-l.T,-t > fallS <°1 ■ 

6.2.4.1.2 Unbekannter Schwellenwert 

In Kapitel 6.1 wurde erläutert, daß bei unbekanntem Schwellenwert unter bestimmten Vor- 
aussetzungen die ML-Schätzer für die Regressionsparameter und die Varianzen asymptotisch 
normalverteilt sind, mit derselben Varianz-Ko varianz-Matrix wie im Falle eines bekannten 
Schwellenwertes. Deshalb ist zu vermuten, daß auch die asymptotischen Tests von Hypothe- 
sen, die sich auf diese Parameter beziehen, weiter Gültigkeit haben (da für ihre Herleitung ja 
eben diese asymptotische Normal Verteilung verwendet wird). 

Test von Hypothesen über den Schwellenwert wurden bereits in Kapitel 6.2.3. 1 behandelt. 

6.2.4.2 Mischungs- und Markov-Modelle 

Wie in Kapitel 6.1.2 dargelegt, ist die asymptotische Normalverteilung der ML-Schätzer nur 
für einige wenige Fälle wirklich bewiesen. In den anderen Fällen wird sie allgemein als gege- 
ben angenommen. Unter der Annahme der Gültigkeit dieser asymptotischen Normalvertei- 
lung kann man wiederum die asymptotischen Tests von Hypothesen, die sich auf diese Para- 
meter beziehen, anwenden. 

6.2.5 Tests zwischen getrennten Hypothesen 

In empirischen Anwendungen kann es von Interesse sein, eine Auswahl zwischen zwei Mo- 
dellen zu treffen, die getrennt {separate oder nonnested) sind, von denen sich also keines 
durch Parameterrestriktionen aus dem jeweils anderen ergibt. So kann man etwa vor der Frage 
stehen, ob ein homogenes Marko v-Modell oder ein Schwellenmodell angebracht ist; 167 oder, 
welche von zwei konkurrierenden Einflußgrößen eine überlegene Erklärungsgüte für die ab- 
hängige Variable besitzt. 

Die ersten systematischen Untersuchungen zu dem Problem von Tests zwischen getrennten 
Hypothesen stammen von Cox [1961, 1962], der Verallgemeinerungen des klassischen LQ- 
Tests auf diese Situation vorschlug. Seitdem sind in der ökonometrischen Literatur zahlreiche 
weitere Testverfahren für solche Situationen vorgestellt worden, 168 von denen die Tests zwi- 

167 Ein Beispiel für diese Situation wäre ein Test zwischen dem Schwellenmodell des US-BSP von POTTER 
[1995] und dem Markov-Modell von Hamilton [1989] für dieselben Daten. 

168 Überblicksdarstellungen zu diesem Problemkreis finden sich z.B. in Davidson und McKlNNON [1982], 
Gourieroux, Monfort und Trognon [1983], McAleer [1995] und Gourieroux und Monfort [1995b], 
Kapitel 22.2. 
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6 Asymptotische Eigenschaften der ML-Schätzer und Tests 



sehen getrennten klassischen Regressionsmodellen (d.h. solchen, von denen jedes mindestens 
eine Einflußgröße enthält, die in dem jeweils anderen fehlt) mittlerweile in vielen Ökonome- 
trie-Lehrbüchern dargestellt werden . 169 

Naheliegend bei dem Problem eines solchen Tests zwischen zwei getrennten Modellen Mo 
und Mi ist der folgende, in vielen Lehrbüchern empfohlene Ansatz : 170 Es ist nach einem 
umfassenden Modell M2 zu suchen, das die beiden in Frage stehenden Modelle Mo und Mi als 
Spezialfalle enthält. Es werden zwei konventionelle Tests der Nullhypothesen Mo und Mi 
gegen die Alternative dieses umfassenden Modells M2 durchgefuhrt. Man testet also nicht 
direkt Mo gegen Mi und umgekehrt, sondern jedes der beiden Modelle gegen ein weiteres, das 
zusätzlich zu den Charakteristika des als Nullhypothese verwendeten Modells noch die des 
jeweils anderen enthält. Wird die Nullhypothese in einem dieser beiden Tests verworfen, so 
interpretiert man dies dahingehend, daß diese zusätzlichen Modellstrukturen wesentliche 
Eigenschaften der Daten beschreiben und deswegen in der Modellierung berücksichtigt wer- 
den sollten. 

Die vier möglichen Ergebniskombinationen der beiden konventionellen Tests fuhren dem- 
nach zu folgender Entscheidungsregel: 





Mo verworfen 


Mo nicht verworfen 


Mi verworfen 


M2 ist Mo und Mi 
vorzuziehen 


Mo ist Mi und M2 
vorzuziehen 


Mi nicht verworfen 


Mi ist Mo und M2 
vorzuziehen 


keine Entscheidung 
möglich 



Tabelle 9: Entscheidungsregel des Tests zwischen getrennten Hypothesen je nach Ausgang der Tests von Mo 
(Vorzeile) und Mi (Vorspalte), jeweils gegen M 2 

Das Verfahren liefert keine Entscheidung, falls keine der beiden Restriktionen verworfen 
werden kann, und stellt deswegen auch keinen Test im herkömmlichen Sinne dar. Diese 
Schwierigkeit teilt das Verfahren jedoch mit allen Tests getrennter Hypothesen, im Unter- 
schied zu reinen Diskriminationsverfahren, die zum Ziel haben, das in gewisser Hinsicht beste 
Modell aus den zur Diskussion stehenden auszuwählen (wie z.B. mit Hilfe der Informations- 
kriterien). Auch ist nicht klar, wie sich die a- und ß-Fehler der Einzeltests zur gesamten Irr- 
tumswahrscheinlichkeit verhalten. 

Ein entscheidender Vorteil dieses Verfahrens gegenüber den Alternativen ist, daß es einen 
interpretierbaren Schluß zuläßt, falls die Nullhypothese in beiden Fällen verworfen wird: Mo 

169 Vgl. z.B. GREENE [1997], Kapitel 7.10, oder JUDGE u.a. [1985], Kapitel 21.3. 

170 Vgl. z.B. Harvey [1993], S. 177 ff., oder GOURIEROUX und MONFORT [1995b], Kapitel 22.2.7. 
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und Mi beschreiben die Situation nur unvollständig, das umfassende Modell ist beiden vorzu- 
ziehen. 

Die Auswahl eines solchen umfassenden Modells ist mit einer gewissen Willkür behaftet. 
Sehr allgemeine Ansätze sind die von Quandt bzw. Atkinson, bei denen die Likelihood- 
Funktion des umfassenden Modells als gewichtetes arithmetisches bzw. geometrisches Mittel 
der Likelihood-Funktionen der Einzelmodelle konstruiert wird. 171 Diese ”Hybrid-Modelle” 
sind aber in den meisten Fällen reine stochastische Konstrukte und lassen sich dann i.d.R. 
kaum noch substanzwissenschaftlich deuten. 172 

Sind die Modelle, zwischen denen getestet werden soll, verwandt, so bietet sich dagegen in 
manchen Situationen ein umfassendes Modell an, dessen Struktur und Parameter inhaltliche 
Bedeutung besitzen, und das gegebenenfalls auch - falls die Testergebnisse nahelegen, daß es 
Mo und Mi vorzuziehen ist - zu weiteren Test- und Prognosezwecken herangezogen werden 
kann. 

Aus Abbildung 3 (S. 15) ist ersichtlich, wie nach diesem Verfahren verschiedene Regime- 
wechselmodelle gegeneinander getestet werden können: Da inhomogene Markov-Modelle 
alle anderen hier betrachteten Modelle umfassen, gibt es immer wenigstens dieses eine inter- 
pretierbare umfassende Modell, das für Tests zwischen getrennten Hypothesen verwendet 
werden kann. 

Einen besonders interessanten Fall stellt in diesem Zusammenhang das Problem eines Tests 
zwischen Markov- und Schwellenmodellen dar. Insbesondere die Zeitreihenversionen dieser 
Modelle stehen in der ökonometrischen Literatur relativ gleichberechtigt nebeneinander, und 
ein Test zwischen ihnen wäre zur Beurteilung der konkurrierenden Modelle hilfreich. Dieses 
Problem wurde bisher in der Literatur weitestgehend vernachlässigt. Die einzige Ausnahme 
hierzu bildet die Arbeit von Clements und Krolzig [1998], die einen Vergleich zwischen 
Markov- und Schwellenmodellen für das US-BSP anhand ihrer Prognosegüte anstellen. Das 
Ergebnis solch eines Vergleichs hängt natürlich entscheidend von dem speziellen Verlauf der 
untersuchten Zeitreihe außerhalb des für die Parameterschätzung verwendeten Zeitraums ab, 
weswegen dieses Verfahren keinen Ersatz für einen statistischen Test darstellt. 173 



171 Vgl. z.B. Gourieroux und MONFORT [1995b], S. 298. 

172 Ähnliches gilt für das Davidson-McKinnon-Modell, das getrennte Regressionsmodelle ”umfaßt” und die 
Grundlage für den J - und den P-Test zwischen solchen Modellen bildet, vgl. Gourieroux und MONFORT 
[1995b], S. 301 ff. 

173 In CARRASCO [1997] werden außerdem Wald-Encompassing-Tests (vgl. MlZON und RICHARD [1986]) 
zwischen Schwellen- und Strukturbruch- sowie zwischen Markov- und Strukturbruchmodellen vorgeschlagen. 
Dieser Ansatz läßt sich aber nicht ohne weiteres auf den Fall eines Tests zwischen Schwellen- und Markov- 
Modellen ausdehnen, vgl. CARRASCO [1997], S. 3. 
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6 Asymptotische Eigenschaften der ML-Schätzer und Tests 



Es dürfte darum von Interesse sein, die oben erläuterte Methodik auf diesen Fall anzuwen- 
den. Dafür benötigt man einen (herkömmlichen) Test zwischen homogenen und inhomogenen 
Markov-Modellen, der aber - wie in Kapitel 6.2.3 ausgefuhrt - unproblematisch ist, sowie 
einen zwischen Schwellen- und inhomogenen Markov-Modellen. In dieser Situation kann der 
verallgemeinerte LQ-Test aus Kapitel 6.2.3 verwendet werden, auf den an dieser Stelle des- 
wegen genauer eingegangen wurde. Stehen ein Schwellen- und ein Mischungsmodell zur 
Diskussion, so kann als umfassendes Modell ein inhomogenes Mischungsmodell zusammen 
mit dem in Kapitel 6.2.3 untersuchten verallgemeinerten LQ-Test zwischen Schwellen- und 
inhomogenen Mischungsmodellen (sowie einem zwischen homogenen und inhomogenen 
Mischungsmodellen) herangezogen werden. 
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7 Tests von Regimewechselmodellen für Wochendaten des FF/DM- 
Wechselkurses 

Die im letzten Kapitel erläuterten Tests im Zusammenhang mit Regimewechselmodellen sol- 
len im folgenden auf die verschiedenen in Kapitel 5 geschätzten Modelle für den FF/DM- 
Wechselkurs angewendet werden. 

7.1 Tests linearer Modelle gegen Regimewechselmodelle 

Als erstes stellt sich die Frage nach der Signifikanz der geschätzten Modelle. Zu testen ist die 
Nullhypothese eines Modells ohne Regimewechsel gegen die Alternativen der verschiedenen 
Typen von Regimewechselmodellen, wofür hier die in 6.2.2 erläuterten LQ-Tests verwendet 
werden. Die Werte der LQ-Teststatistik sind in Tabelle 10 aufgeführt. 





Schwellenmodell 


Mischungsmodell 


Markov-Modell 


Wert der LQ-Teststatistik 


157,50 


331,98 





Tabelle 10: LQ-Teststatistiken für die Tests des linearen Modells gegen Regimewechselmodelle 



Da hier der (unter der Nullhypothese nicht identifizierte) Schwellenwert des Schwellenmo- 
dells geschätzt wird, folgt die LQ-Teststatistik in diesem Fall nicht der üblichen % 2 («)- 
Verteilung, wobei n die Anzahl der zusätzlichen freien Parameter des Altemativmodells in- 
klusive des Schwellenwertes darstellt, d.h. hier n = 3 . Folgt man der in Kapitel 6.2.2. 1.2 an- 
gegebenen Faustregel, daß man statt dessen die kritischen Werte einer ^{n+n ’)- Verteilung 
verwenden muß, wobei die "Korrektur der Freiheitsgrade” ri etwa 1-2 für den hier verwen- 
deten niedrigen Wert von n beträgt, so erhält man für ri = 2 zum 1 %-Niveau einen kritischen 
Wert von 15,09 und damit das Ergebnis, daß die Nullhypothese verworfen wird. 

Das Problem von unter der Nullhypothese nicht identifizierten Parametern und daraus 
resultierenden exotischen Verteilungen der LQ-Teststatistiken besteht auch für Mischungs- 
und Markov-Modelle. Für das Mischungsmodell kann man die kritischen Werte aus Tabelle 6 
(S. 100) verwenden, die aus der Davies-Approximation berechnet wurden. Der entsprechende 
kritische Wert zum 1 %-Niveau für den hier untersuchten Fall mit s = 2 beträgt 14,72. Die 
Nullhypothese wird also auch hier verworfen. 

Für das Markov-Modell schließlich sind die simulierten Werte von Garcia [1998] an- 
wendbar. Der kritische Wert zum 1 %-Niveau für dieses Modell lautet 17,52. Wieder wird die 
Nullhypothese verworfen. 
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7 Tests von Regimewechselmodellen für Wochendaten des FF/DM-Wechselkurses 



Zusammenfassend erhält man das Ergebnis, daß die Tests keinen Zweifel daran lassen, daß 
alle drei untersuchten Regimewechselmodelle die Daten signifikant besser beschreiben als 
das lineare Modell. Damit stellt sich die Frage nach dem „besten“ unter den betrachteten Re- 
gimewechselmodellen. 



7.2 Tests zwischen verschiedenen Typen von Regimewechselmodellen 



Relativ einfach ist die Situation für den Vergleich zwischen dem Mischungs- und dem Mar- 
kov-Modell. Das Mischungsmodell ist eine Restriktion des Markov-Modells, und man kann 
davon ausgehen, daß die LQ-Teststatistik für den Test der Nullhypothese des Mischungsmo- 
dells gegen die Alternative des Markov-Modells x 2 (l)-verteilt ist (da hier kein separater freier 
Parameter für die Startwahrscheinlichkeit der Markov-Kette geschätzt wird). Der Wert der 
Teststatistik beträgt 94,98 bei einem kritischen Wert von 6,64 zum 1 %-Niveau Damit wird 
die Nullhypothese verworfen: Die Häufung von Beobachtungen aus den beiden Zuständen, 
die nicht durch das Mischungsmodell, wohl aber durch das Markov-Modell erfaßt wird, stellt 
ein wesentliches Charakteristikum der Daten dar. 

Dieses stylised fact wird aber auch von dem Schwellenmodell beschrieben. Welches von 
beiden ist dem anderen vorzuziehen? Da die beiden Modelle getrennt sind, läßt sich kein her- 
kömmlicher Test zwischen ihnen durchführen. Eine Möglichkeit ist das in Kapitel 6.2.5 er- 
läuterte Vorgehen, das darin besteht, beide in Frage stehenden Modelle gegen ein umfassen- 
des Modell zu testen. Dafür bietet sich in dieser Situation, wie schon in Kapitel 6.2.5 erläutert, 
ein inhomogenes Markov-Modell an. 

Die ML-Schätzwerte eines solchen Modells, dessen Übergangswahrscheinlichkeiten in der 
Form 



p"(z,) = 






1 + e' 



5,+y ( z, 



, f = 1,2 



von der Zinsdifferenz z t abhängen, sind in Tabelle 11 wiedergegeben. 4 Ein Vergleich mit 
Tabelle 5 (S. 79) zeigt, daß die Schätzergebnisse für die Mittelwerte und die Standardabwei- 
chungen nur unwesentlich von denen des homogenen Modells abweichen. Der geschätzte 
Koeffizient y 2 hat das erwartete Vorzeichen: Bei wachsenden Zinsdifferenzen sinkt die 
Wahrscheinlichkeit für das Verbleiben in dem Zustand mit der niedrigen Volatilität. Das ne- 



174 Zu dem verwendeten Schätzverfahren vgl. den Anhang von Kapitel 5. Da die Normalgleichungen für die 
Parameter des Zustandsprozesses nicht linear sind (vgl. Kapitel 4.3.2.2.4), wurde für den M-Schritt des EM- 
Algorithmus die im Anhang B von Kapitel 4 erläuterte Näherungsformel verwendet. 
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gative Vorzeichen von y, ist jedoch nicht das erwartete. Dieser Koeffizient hat außerdem 
einen sehr hohen geschätzten Standardfehler. 
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Maximaler Wert der Log-Likelihood: 44,80 



Tabelle 11: Schätzwerte eines inhomogenen Markov-Modells 

Zur Illustration ist der Verlauf der Übergangswahrscheinlichkeiten für dieses Modell in 
Abbildung 1 1 dargestellt. Die Übergangswahrscheinlichkeiten des inhomogenen Modells os- 
zillieren (je nach Zinsentwicklung) in mäßigem Umfang um die (konstanten) des homogenen. 




1987 1968 1989 1990 1991 1992 1990 1994 1995 1995 1997 1998 



— — — pll (homogen) 


— 


p22 (homogen) 


pll (inhomogen) 


— 


p22 (inhomogen) 



Abbildung 11: Vergleich der Übergangswahrscheinlichkeiten des homogenen und des inhomogenen Markov- 
Modells 



Insgesamt sind die beiden Modelle sehr ähnlich. Dies zeigt sich insbesondere an einem 
LQ-Test der Nullhypothese des homogenen gegen die Alternative des inhomogenen Modells. 
Die Teststatistik, die unter der Nullhypothese % 2 (2)-verteilt ist, hat den Wert 1,36 mit einem 
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/7-Wert von 0,5 1 . Die Nullhypothese wird also nicht verworfen: Der zusätzliche Erklärungs- 
gehalt des inhomogenen Modells ist zu gering. 

Will man die Nullhypothese des Schwellenmodells gegen die Alternative des inhomogenen 
Markov-Modells testen, so kann man auf die Ergebnisse aus Kapitel 6.2.3. 3 zurückgreifen. Da 
davon auszugehen ist, daß die kritischen Werte in der Größenordnung einer 
% 2 (3) -Verteilung liegen, 175 ist das Testergebnis hier eindeutig: Bei einem Wert der Teststa- 
tistik von 270,82 wird die Nullhypothese deutlich verworfen. 

Das Ergebnis des in Kapitel 6.2.5 beschriebenen Tests zwischen den getrennten Hypothe- 
sen eines homogenen Marko v- und eines Schwellenmodells lautet also: Das Marko v-Modell 
ist dem Schwellenmodell vorzuziehen. Damit ist aus den insgesamt 4 untersuchten Regime- 
wechselmodellen das mit dem höchsten Erklärungsgehalt bei sparsamer Verwendung von 
Parametern ausgewählt worden. 

7.3 Spezifikationstests 

Zuletzt soll noch das Markov-Modell, welches im letzten Kapitel aus den geschätzten 
Modellen ausgewählt wurde, weiter untersucht werden. Dabei soll zum einen geprüft werden, 
ob der auffällige Unterschied zwischen den Volatilitäten in den beiden Zuständen signifikant 
ist. Dies könnte mit Hilfe eines LQ-Tests untersucht werden. Hier bietet sich aber ein Wald- 
Test an, der den Vorteil hat, daß das Modell nicht unter der Nullhypothese der Homoskedastie 
geschätzt werden muß. Der Wert der Teststatistik ist 37,94. Der Vergleich mit den kritischen 
Werten der % 2 (1)- Verteilung zeigt, daß die Nullhypothese zu allen üblichen Niveaus verwor- 
fen wird. Die beobachtete Heteroskedastie ist also signifikant. 

Zum anderen soll getestet werden, ob die Mittelwerte tatsächlich zustandsabhängig sind. 
Der Wert der Wald-Teststatistik der Nullhypothese eines Modells mit zustands wwabhängigem 
Mittelwert ist 0,46 mit einem p - Wert von 0,50. Folglich wird die Nullhypothese nicht verwor- 
fen, die Mittelwerte sind nicht signifikant zustandsabhängig. Die Schätzwerte eines Modell 
mit der Restriktion gleicher Mittelwerte sind in Tabelle 12 dargestellt. Daraus läßt sich nun 
auch der Wert der LQ-Statistik für den Test der Nullhypothese eines zustandsunabhängigen 
Mittelwertes berechnen. Ihr Wert (0,52) liegt nahe bei dem Wert der zuletzt angegebenen 
Wald-Teststatistik und fuhrt zu demselben Testergebnis. 

Die Übergangswahrscheinlichkeiten und die Standardabweichungen der geschätzten Para- 
meter sind fast identisch mit denen des Modells mit verschiedenen Mittelwerten in den Zu- 
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ständen. Auffällig sind die niedrigen Werte der geschätzten Standardfehler dieser Parameter, 
die im Falle der Übergangs Wahrscheinlichkeiten etwas kleiner als die des Modells mit ver- 
schiedenen Mittelwerten und im Falle der Standardabweichungen der Störterme deutlich nied- 
riger sind. 
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43,86 



Tabelle 12: Geschätzte Parameter eines Markov-Modells mit zustandsunabhängigem Mittelwert 

Der Erwartungswert der Verweildauer beträgt 6,3 Wochen für den Zustand mit der hohen und 
21,3 Wochen für den Zustand mit der niedrigen Volatilität. Die unbedingte Wahrscheinlich- 
keit für den volatilen Zustand ist wieder 0,228. Die geglätteten Wahrscheinlichkeiten dieses 
Modells sind denen des Modells mit verschiedenen Mittelwerten (vgl. Abbildung 10, S. 80) 
so ähnlich, daß auf ihre Darstellung hier verzichtet wird. 

Der Mittelwert, d.h. der gemeinsame Drift in den beiden Zuständen, ist, wie man an dem 
geschätzten Standardfehler in Tabelle 12 sieht, nicht signifikant von Null verschieden. Die 
Veränderungsraten weisen also keinen signifikanten Trend über den Beobachtungszeitraum 
auf, und man könnte, um die Zahl der Parameter zu reduzieren, ein Modell mit der Restriktion 
ju = 0 schätzen. Die Schätzergebnisse für die übrigen Parameter und die geglätteten Wahr- 
scheinlichkeiten sind mit denen des Modells ohne diese Restriktion aber praktisch identisch, 
weswegen sie hier nicht dargestellt werden. 



Anhang: Verwendete Testverfahren 
1. LQ-Tests 

Für das lineare Modell ist der maximale Wert der Log-Likelihood L 0 = -169,36 (vgl. Tabelle 
1, S. 71). Daraus und aus den maximalen Werten L\ für die Regimewechselmodelle, die in 
Kapitel 5 jeweils zusammen mit den geschätzten Parametern angegeben sind, lassen sich LQ- 
Teststatistiken folgendermaßen berechnen: 

ZÖ = 2(A-I 0 )- 



175 In dieser Situation ist der Schwellenwert ja geschätzt. 
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7 Tests von Regimewechselmodellen für Wochendaten des FF/DM-Wechselkurses 



2. Wald-Tests und asymptotische /-Tests 

Wald-Teststatistiken lassen sich mit Hilfe der Schätzer der asymptotischen Varianz- 
Kovarianz-Matrix berechnen, die numerische Schätzverfahren wie der BHHH-Algorithmus 
am Konvergenzpunkt zur Verfügung stellen. Bei Verwendung des Befehls MAXIMIZE mit 
der Option BHHH unter RATS for Windows läßt sich dieser Schätzer als %XX ansprechen. 
Hier können Wald-Tests bequem mit den Befehlen TEST, RESTRICT und MRESTRICT 
durchgefuhrt werden. 

Die zusammen mit den Schätzwerten jeweils angegebenen asymptotischen Standardabwei- 
chungen können für die Berechnung asymptotischer /-Tests von Restriktionen der Form 
6 = 0 O eines skalaren Parameters 6 verwendet werden. Die Wald-Teststatistik dieser Restrik- 
tion ist das Quadrat der entsprechenden /-Statistik. 176 Für große Stichproben ist die /-Statistik 
näherungsweise normalverteilt, also ihr Quadrat x 2 -verteilt. Dann sind asymptotischer /- und 
Wald-Test äquivalent. In kleinen Stichproben können aber aufgrund der Abweichung der /- 
von der Normalverteilung die Testergebnisse unterschiedlich ausfallen. 



176 



Vgl. Greene [1997], S. 164 f. 
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8 Prognosen 

Ein wichtiger Vorzug der hier behandelten Regimewechselmodelle, bei denen die Gesetzmä- 
ßigkeiten der Parametervariation modelliert wird, gegenüber rein deskriptiven Verfahren ist 
die Möglichkeit der Erstellung von Prognosen, die die Natur der Parametervariation berück- 
sichtigen. Wenn die entsprechenden Tests ergeben haben, daß ein Regimewechselmodell eine 
deutlich bessere Anpassungsgüte an die Daten besitzt als ein lineares Modell, so sollten sich 
damit auch Prognosen erstellen lassen, die denen eines linearen Modells überlegen sind. Die 
entsprechenden Prognoseformeln für Regimewechselmodelle werden in diesem Kapitel er- 
läutert. 

Das übliche Maß für die Qualität einer Prognose jp r+r (I r ) einer Zufallsvariable y T+r auf 
Basis der Realisation weiterer Zufallsvariablen Ir (der zum Zeitpunkt T verfügbaren Informa- 
tion) ist der mittlere quadratische Prognosefehler 

E(y T U l T )-yT*r ) 2 . 

gebildet mit Hilfe der gemeinsamen Verteilung von y T+r und Ir. Dieser mittlere quadratische 
Prognosefehler wird bekanntlich minimal, wenn y T+r durch den bedingten Erwartungswert 
von y T+r gegeben Ir prognostiziert wird, falls also 
•Pr+rffr) = ^(Tr+r I ^r) • 

In der Praxis ist die gemeinsame Verteilung von y T+r und Ir gewöhnlich unbekannt. Eine 
naheliegende und häufig verwendete Methode zur Auffindung von Prognosen besteht darin, 
anstelle der wahren Verteilung diejenige zu verwenden, die sich aus den geschätzten Parame- 
tern ergibt. 

Häufig ist es nicht möglich, den bedingten Erwartungswert E(y T+r | I r ) analytisch zu be- 
rechnen. In diesen Fällen kann man ihn durch Simulationen approximieren: Man erzeugt mit 
Hilfe eines Zufallsgenerators k unabhängige Realisationen der Störvariablen 177 und berechnet 
daraus unter Verwendung der Werte der beobachteten Variablen sowie der geschätzten Para- 
meter die resultierenden Werte Jv+r,i >- 5 Jw,* der zu prognostizierenden Variablen. Aus die- 
ser simulierten bedingten Verteilung von y T+r läßt sich der gesuchte bedingte Erwartungswert 
E(y T+r | I r ) näherungsweise bestimmen als 

£0v + r • 

K i = 1 

177 Üblich ist k > 1000. 
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8 Prognosen 



Prognosefehler haben im allgemeinen verschiedene Ursachen: 

• Fehlspezifikation. Dies ist wohl häufig die Hauptquelle von Prognosefehlem. Möglichst 
effiziente Testverfahren können helfen, ihren Einfluß zu vermindern. 

• Abweichungen der geschätzten von den wahren Parametern. Diesen Fehler zu minimieren 
ist Aufgabe der Schätztheorie. 

• Die Realisationen des Fehlerterms. Dieser Anteil läßt sich durch die Angabe von Progno- 
seintervallen um die Prognosewerte abschätzen. Diese Intervalle können in manchen Fäl- 
len berechnet werden, andernfalls kann man sie aus den oben beschriebenen Simulationen 
der bedingten Verteilung des zu prognostizierenden Wertes erhalten. 

Die folgende Darstellung konzentriert sich auf die Prognose von n noch nicht realisierten 
bzw. nicht für die Schätzung herangezogenen Beobachtungen. Hier ist also 178 

I T = (3 / lv)} ; 7’5^ 1 ,...,X7’ +r ,W 1 ,...,W r+( ,) 

bzw., falls der Schwellenindikator z t exogen ist, 

1 T = ( t y 1 ,..., i y r ,X 1 ,...,X r+r , Wj,..., W r+r ,Zj,...,z r+r ) . 

Nicht ausdrücklich betrachtet wird die Berechnung von fltted values (ex-post-Prognosen), d.h. 
der sich aus dem geschätzten Modell ergebenden Schätzwerte für die realisierten und für die 
Schätzung herangezogenen Beobachtungen. Für Schwellenmodelle könnte man sie ähnlich 
wie für lineare Modelle berechnen, da die Aufteilung der beobachteten Daten auf die Zustän- 
de (nach der Schätzung) bekannt ist. Für Mischungs- und Markov-Modelle ist ihre Berech- 
nung in diesem Rahmen wenig sinnvoll, da bei der ML-Schätzung die Abfolge der Regime 
nicht geschätzt wird. Als fltted values kommen dann nur gewichtete Mittel der entsprechen- 
den Schätzwerte aus den beiden Zuständen mit den geglätteten Zustandswahrscheinlichkeiten 
als Gewichte in Frage. 

8.1 Schwellenmodelle 

An dieser Stelle ist zu unterscheiden zwischen Prognosen, für die das Regime aus den Daten 
und dem (geschätzten) Schwellenwert ermittelt werden kann, und solchen, für die das nicht 
möglich ist. 

Der erste Fall liegt vor, falls die Schwellenvariable exogen ist, oder wenn sie verzögert en- 
dogen vom Lag r' ist und r <r' Werte der endogenen Variablen prognostiziert werden sol- 



178 Die exogenen Größen werden natürlich für den Prognosezeitraum als bekannt vorausgesetzt. Falls das Modell 
verzögert endogene Regressoren der maximalen Laglänge p enthält, so enthalte l T dementsprechend auch die 
Werte y.p+u...,yo. 
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len. Ist der Schwellenwert c bekannt, so kann man auf den Zustand s T+r zurückschließen, und 
es gilt 

E(y T „\i T ) 

= E{y T „ | S T+r’^T+r> w r+ ,) 

= f W r+r a + X T „ß , , falls s T „ = 1 
“ {w r+r ct + X T+r ß 2 , falls ,J r+r = 2 

Daraus erhält man Prognosen, indem man anstelle der wahren Parameter die geschätzten ä , 
J3j und ß 2 verwendet. Bei unbekanntem Schwellenwert geht man genauso vor, nur daß man 

die Aufteilung der Daten auf die Zustände anhand des geschätzten Schwellenwertes c be- 
stimmt. 

Grundsätzlich anders stellt sich die Situation dar, falls der Regimeindikator verzögert endo- 
gen vom Lag r' ist und r > r ' . In diesem Fall ist der Wert des Zustandsindikators, der das 
Regime für den zu prognostizierenden Wert bestimmt, nicht bekannt. Dann läßt sich die be- 
dingte Verteilung dieses Wertes nicht mehr explizit berechnen. 

Ein naives Prognoseverfahren besteht darin, den Zustand für den zu prognostizierenden 
Wert seinerseits aus dem prognostizierten Wert für den Schwellenindikator zu berechnen. 
Damit ignoriert man aber die stochastische Komponente des Modells vollkommen. 179 Ein 
kleiner Prognosefehler kann so zu einem falschen angenommenen Zustand für die folgenden 
Werte führen und damit zu unkalkulierbar hohen Fehlem in den weiteren Prognosen. 

Besser ist es, die gesuchten bedingten Verteilungen wenigstens approximativ zu berechnen. 
Sie können entweder durch numerische Integration gewonnen werden, 180 oder man greift auf 
die oben beschriebenen Simulationsverfahren zurück. In Clements und Smith [1997] wird 
ein Vergleich zwischen diesen und einigen weiteren Verfahren angestellt. Die Autoren kom- 
men zu dem Schluß, daß die verhältnismäßig einfache, aber rechenintensive Simulationstech- 
nik zu relativ guten Ergebnissen führt. 



179 Man berechnet nicht den Erwartungswert der durch die Strukturgleichung gegebenen Funktion der Störtenne, 
sondern diese Funktion ihrer Erwartungswerte, die ja gleich Null sind. Es wird also nur das sogenannte „Skelett“ 
des Modells, das aus der strukturellen Gleichung ohne Störeinfluß besteht, verwendet. Deswegen wird diese 
Methode auch method“ genannt, vgl. TONG [1995], S. 45, und CLEMENTS und SMITH [1997], S. 463. 

180 Vgl. hierzu z.B. TONG [1990], §4.2.4. 
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8 Prognosen 



8.2 Mischlings- und Markov-Modelle 



Falls die erklärenden Größen keine verzögert endogenen Variablen enthalten und der evt. 
vorhandene Regimeindikator z h von dem die Aufenthalts- bzw. Übergangswahrscheinlich- 
keiten abhängen, exogen ist, gilt 

E{yr»\h) = lL E ^r\ S T+r ’ X r+r , w T „)P(s 

T+r I ^7*) > 

S T+r 

wobei natürlich wieder 



^OV+r I ‘ y 7’+r>X r+r , 



W r+r ) = 



W r+r a + X T+r ß j , falls s T+r — 1 
W r+r a + X T+r ß 2 , falls s T+r = 2 



Im Falle eines Mischungsmodells sind die Zustände unabhängig, also gilt im inhomogenen 
Fall 



P( S T+r I If) ~ P( S T+r I Z T+r ) _ 



f(Y Z T + r +5),fallS5 r+r =1 
l-/(7^ + r +5),falls^ r+r =2 



und im homogenen Fall 



P( S T+r I If) ~ P( S T+r) ~ 



p , falls s T+r = 1 
1 - p , falls s T+r = 2 . 



Die Prognose von y T+r ist also das Mittel aus den beiden Prognosen, die man bei Kenntnis 
des Zustandes s T+r verwenden würde, gewichtet mit der aus den geschätzten Parametern be- 
rechneten Wahrscheinlichkeit für diesen Zustand. 

Im Falle eines Markov-Modells muß man diese Wahrscheinlichkeit mit Hilfe der Dynamik 
des Markov-Kette auf den letzten Zeitpunkt zurückfuhren, für den man Beobachtungen über 
die abhängige Variable hat: 

P(s T+r \ I r ) — 

X ' * * P( S T+r I S T+r- 1 > Z T+r ) * * * P( S T+ 1 I s T , z T+l ) 

^r+r-l S T 

P(s T | W lv .., W r ,X lv ..,X r ) . 

Die gesuchte Wahrscheinlichkeit erhält man demzufolge aus den geschätzten Übergangs- 
wahrscheinlichkeiten und den geglätteten Wahrscheinlichkeiten zum Zeitpunkt T, wie sie z.B. 
im letzten Schritt des EM-Algorithmus berechnet werden. 

Komplizierter sind die Prognoseformeln, falls unter den erklärenden Größen verzögert 
endogene Variablen sind. Man muß dann die eben erläuterte Methode kombinieren mit rekur- 
siven Verfahren zur Berechnung von Prognosen für lineare AR-Prozesse. 181 



181 



Genaueres hierzu findet sich in KROLZIG [1997], S. 65 ff. 
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Ist schließlich der Regimeindikator verzögert endogen, so ist die Situation ähnlich wie für 
Zeitreihen-Schwellenmodelle (SETAR-Modelle): Solange der Wert des Indikators für den zu 
prognostizierenden Wert bekannt ist, behalten die oben beschriebenen Formeln ihre Gültig- 
keit. Übersteigt der Prognosehorizont r jedoch die Laglänge des Zustandsindikators, läßt sich 
die gesuchte bedingte Verteilung nicht mehr explizit berechnen, und man ist auf numerische 
Integrationen oder Simulationen angewiesen. 
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9 Prognosen für Wochendaten des FF/DM-Wechselkurses 



Um die in Kapitel 8 beschriebenen Prognoseverfahren an dem in Kapitel 7 ausgewählten Mo- 
dell für den FF/DM-Wechselkurs, dem Markov-Modell, zu erläutern, werden zwei Prognosen 
über einen Zeitraum von je 20 Wochen dargestellt, beginnend zu einem Zeitpunkt mit hoher 
bzw. niedriger Volatilität. Die letzte ausgedehnte Phase mit hoher Volatilität war Ende 1995. 
Als Beginn der ersten Prognose wurde der 15. September 1995 gewählt. Die zweite Prognose 
beginnt an der 21. Beobachtung vor Ende des Beobachtungszeitraums, also am 26. Juni 1998, 
so daß noch 20 Werte für den Vergleich der Prognosen mit den realisierten Werten zur Verfü- 
gung standen. Das Markov-Modell wurde für die entsprechenden Zeiträume neu geschätzt. 
Die Schätzergebnisse, die sich nicht wesentlich von denen in Tabelle 5 (S. 79) unterscheiden, 
sind in Tabelle 13 wiedergegeben. 182 
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Tabelle 13: Geschätzte Parameter eines Markov-Modells mit Schätzzeitraum 23. Januar 1987 bis 15. September 
1995/ 26. Juni 1998 

Für die Prognose sind zuerst nach der auf S. 120 angegebenen Formel aus der geglätteten 
Wahrscheinlichkeit am letzten Beobachtungszeitpunkt und den geschätzten Übergangswahr- 
scheinlichkeiten die Wahrscheinlichkeiten für die beiden Zustände an den Prognosezeitpunk- 
ten zu ermitteln. Daraus lassen sich dann Prognosen für den Wert von r t und Prognoseinter- 
valle berechnen. 

Prognose 1 

Für die erste Prognose haben die Wahrscheinlichkeiten für den Zustand mit der hohen Volati- 
lität den in Abbildung 12 dargestellten Verlauf. Die prognostizierte Wahrscheinlichkeit nähert 
sich, wie es die Theorie vorhersagt, 183 exponentiell der unbedingten Wahrscheinlichkeit für 
diesen Zustand, die in dieser Schätzung 0,151 beträgt. Auf sehr lange Sicht lautet die Progno- 
se also, daß das Modell im stationären Zustand ist, und die Prognosen werden zeitunabhängig. 
Für kürzere Prognosehorizonte macht sich die hohe geglättete Wahrscheinlichkeit am letzten 
Zeitpunkt des Schätzzeitraumes in höheren prognostizierten Wahrscheinlichkeiten bemerkbar. 



182 Die Testergebnisse für diese Regimewechselmodelle führten zu denselben Ergebnissen wie in Kapitel 7. 

183 Vgl. den Anhang von Kapitel 2, besonders S. 20. 
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Abbildung 12: Geglättete und prognostizierte Wahrscheinlichkeiten für den Zustand mit der hohen Volatilität 
(Prognose 1) 

Die Prognose des Wertes der Variablen ist in diesem Fall nur von geringerem Interesse, da sie 
gleich dem mit den prognostizierten Wahrscheinlichkeiten gewichteten Mittel der Mittelwerte 
in den beiden Zuständen ist. Diese Mittelwerte sind aber gleich, weswegen der prognostizierte 
Wert gar nicht von den geschätzten Wahrscheinlichkeiten abhängig ist, also zeitlich konstant 
ist. Außerdem unterscheidet er sich nur geringfügig von der Prognose des linearen Modells 
(vgl. Abbildung 13). 

Von größerer Bedeutung in diesem Modell, das sich ja wesentlich in den geschätzten Stan- 
dardabweichungen in den beiden Zuständen unterscheidet, ist der Verlauf des Prognoseinter- 
valls. Will man ein solches Prognoseintervall für den prognostizierten Wert berechnen, so 
benötigt man die geschätzte Verteilung der zu prognostizierenden Werte. Dies ist in diesem 
Fall eine Mischverteilung, deren Gewichte für einen Prognosezeitpunkt gerade die prognosti- 
zierten Wahrscheinlichkeiten darstellen. Für sie lassen sich numerisch Prozentpunkte und 
damit Prognoseintervalle bestimmen. In Abbildung 13 sind diese Intervalle für die Prognose- 
wahrscheinlichkeit 0,95 den beobachteten Werten sowie den Prognoseintervallen des linearen 
Modells gegenübergestellt. 
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Wöchentliche log. Rendite des FF/DM -Wechselkurses 

-- - Prognose (lin. /Markov-Modell) 

— - Untere Grenze Prognoseintervall lin, Modell 

— - Obere Grenze Prognose i ntervall lin Modell 

U nte re Grenze Prog nosei ntervall Ma rkovmodell 
Obere Grenze Prog nosei ntervall MarkovmodeH 



Abbildung 13: 95 %-Prognoseintervalle des linearen und des Markov-Modells (Prognose 1) 

(Die Prognosen der Werte von r, mit den beiden Modellen sind in der Darstellung nicht unter- 
scheidbar, da zu ähnlich.) 

Man sieht, daß das Prognoseintervall des Markov-Modells für die ersten Prognosezeitpunkte 
wesentlich breiter als das des linearen Modells ist. Der Grund ist die sich im Markov-Modell 
widerspiegelnde Persistenz des Zustandes mit der hohen Volatilität. Parallel zur Abnahme der 
prognostizierten Wahrscheinlichkeit für diesen Zustand wird auch das Prognoseintervall klei- 
ner. Tatsächlich folgten auf den Beginn der Prognose noch einige sehr hohe Ausschläge des 
Wechselkurses, von denen zwei durch keines der Prognoseintervalle und zwei durch das des 
Markov-Modells, nicht aber durch das des linearen Modells, erfaßt werden. 

Dies ist natürlich ein isoliertes Ergebnis, das keineswegs repräsentativ für die Prognose- 
qualität der Modelle sein muß. Es zeigt aber prinzipiell, wie das Markov-Modell in der Lage 
ist, die Breite von Prognoseintervallen an die Volatilität an den letzten Beobachtungspunkten 
anzupassen. 
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Prognose 2 

Für die zweite Prognose ist die Situation umgekehrt: Am Ende des Schätzzeitraums für diese 
Prognose, also am 26. Juni 1998, ist die geglättete Wahrscheinlichkeit für den Zustand mit der 
hohen Volatilität sehr niedrig (etwa 0,003), da schon über einen längeren Zeitraum keine grö- 
ßeren Wechselkursausschläge mehr aufgetreten sind. Die prognostizierten Wahrscheinlich- 
keiten für diesen Zustand sind zusammen mit den geglätteten Wahrscheinlichkeiten bis zum 
Beginn der Prognose in Abbildung 14 dargestellt. Sie wachsen exponentiell an bis zur unbe- 
dingten Wahrscheinlichkeit dieses Zustandes, die mit den geschätzten Parametern bis zu die- 
sem Zeitpunkt 0,216 beträgt. 




Abbildung 14: Geglättete und prognostizierte Wahrscheinlichkeiten für den Zustand mit der hohen Volatilität 
(Prognose 2). 

(Die geglätteten Wahrscheinlichkeiten schwanken in der ersten Hälfte 1998 so wenig, daß sie hier 
fast konstant erscheinen.) 

Dementsprechend ist das Prognoseintervall, das in Abbildung 15 dargestellt ist, erst kleiner 
als das des linearen Modells und wächst dann an. Deutlich zu sehen ist hier, daß das Progno- 
seintervall für Prognosehorizonte von mehr als einem Monat breiter ist als das des linearen 
Modells. 

Der Grund ist, daß die prognostizierten Wahrscheinlichkeiten für die Zustände gegen die 
unbedingten Wahrscheinlichkeiten konvergieren (vgl. Abbildung 14). Prognoseintervalle für 
lange Prognosezeiträume entsprechen also näherungsweise denen von Werten im stationären 
Zustand. Die prognostizierte Verteilung eines solchen Zustandes ist eine Mischungsvertei- 
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lung, deren Gewichte die unbedingten Wahrscheinlichkeiten der Zustände sind. Diese Ver- 
teilung ist, wie in Kapitel 5.3 erläutert wurde, sehr ähnlich zu der des Mischungsmodells aus 
Kapitel 5.2, die mehr Wahrscheinlichkeitsmasse auf den tails als die Normal Verteilung hat, 
die die Basis für die Prognosen des linearen Modells darstellt (vgl. Abbildung 8, S. 77). Um 
dieselbe Prognosewahrscheinlichkeit zu erhalten, muß das Prognoseintervall des Markov- 
Modells breiter als das des linearen Modells sein. Der Grund dafür, daß die Prognoseinter- 
valle größer werden als die des linearen Modells, ist also, daß das im Vergleich zur Normal- 
verteilung zu häufige Auftreten von hohen absoluten Werten vom Marko v-Modell modelliert 
wird. 




Wöchentliche log . R e nd ite des FF/DM- Wech selku rses 

Prognose (lin./Markov-Modell) 

— - Untere Grenze Prognose intervall lin. Modell 

“ - Obere Grenze Prognose intervall lin. Modell 

- - - - Untere Grenze Prognose intervall Markovmodell 
Obe re Grenze P rogn ose i nte rvall M a rko vm odel I 



Abbildung 15: 95 %-Prognoseintervalle des linearen und des Mar kov- Modells (Prognose 2) 

(Die Prognosen der Werte von r, der beiden Modelle sind in der Darstellung nicht unterscheid- 
bar, da zu ähnlich.) 
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10 Weitere empirische Ergebnisse und ökonomische Implikationen 

10.1 Untersuchung der Wochendaten 

10.1.1 Zusammenfassung der Ergebnisse für den FF/DM-Kurs und ökonomische 
Schlußfolgerungen 

Die Analyse in Kapitel 5 und 7 hat gezeigt, daß sich die Leptokurtosis der Verteilung der 
FF/DM-Renditen und die Autokorrelation der quadrierten Beobachtungen mit einem hete- 
roskedastischen Markov-Modell beschreiben lassen. Für die Prognose der Werte stellt dieses 
Modell keinen Gewinn dar, wohl aber für die Vorhersage von Prognoseintervallen, d.h. die 
Abschätzung der künftigen Volatilität. 

Daraus ergeben sich wichtige Konsequenzen für die Finanzmarkttheorie, in der in der Regel 
von unabhängig normalverteilten Renditen ausgegangen wird, wie etwa im Capital Asset 
Pricing Model (CAPM). Die Gültigkeit des Markov-Modells hat auch Implikationen für die 
Bewertung von in DM notierten Optionen auf Französische Francs (und andersherum). Die 
Standardformel zur Bewertung von Kaufoptionen, die Black-Scholes-Formel, ist gültig, wenn 
die Renditen unabhängig identisch normalverteilt sind. Bei Vorliegen einer Mischverteilung 
muß diese Formel modifiziert werden, wobei dieser Fall eine relativ einfache analytische Lö- 
sung besitzt. 184 Diese Optionspreisformel reproduziert den aus empirischen Untersuchungen 
bekannten "Smile-Effekt", also die systematische Abweichung der beobachteten Optionsprei- 
se von den Black-Scholes-Werten für kurze Restlaufzeiten und einem Verhältnis von Aktien- 
zu Basispreis nahe bei Eins. Für Markov-Modelle berechnen Kaehler und Marnet [1994] 
Optionspreise mit Hilfe von Simulationen und kommen zu ähnlichen Ergebnissen. 

10.1.2 DerNG/DM-Kurs 

Im folgenden soll der Verlauf eines weiteren Wechselkurses im EWS anhand von Wochen- 
daten untersucht werden, der zwischen dem Niederländischen Gulden (NG) und der Deut- 
schen Mark. Zwischen diesen Währungen fanden während der Dauer des EWS nur insgesamt 
3 Realignments statt, davon 2 zu Beginn des EWS 1979 und das letzte 1983. Seitdem ist der 
NG/DM-Leitkurs nicht mehr verändert worden und schließlich in die NG/DM-Relation im 
Rahmen der Europäischen Währungsunion übergegangen. 



184 



Vgl. Ritchey [1990]. 
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Abbildung 16: Wechselkurs zwischen Gulden und DM, Leitkurs und Interventionsgrenzen 

Der Verlauf des Wechselkurses, der für denselben Zeitraum wie der zwischen Franc und DM 
(23. Januar 1987 bis 20. November 1998) in Abbildung 16 dargestellt ist, 185 war während der 
gesamten Dauer des EWS wesentlich stabiler als der zwischen Franc und DM. Nie gelangte 
der Kurs ernsthaft in die Nähe einer der Interventionsgrenzen, so daß das Auftreten von Spe- 
kulation gegen eine der beteiligten Zentralbanken zu keinem Zeitpunkt wahrscheinlich war. 
Daraus läßt sich die Hypothese ableiten, daß ein lineares Modell in diesem Fall die Daten 
besser beschreibt als für den FF/DM-Wechselkurs. Für die folgende Untersuchung wurden 
wieder die logarithmischen Differenzen von wöchentlichen Durchschnittswerten zugrunde 
gelegt. In Tabelle 14 sind wichtige statistische Daten der Verteilung dieser Differenzen wie- 
dergegeben. 



185 Am 2. August 1993 wurden die obere Interventionsgrenze auf 130,834 NG/DM herauf- und die untere Inter- 
ventionsgrenze auf 97,0325 NG/DM herabgesetzt. Diese Kurse fanden aber keine Anwendung. Aufgrund einer 
bilateralen Vereinbarung zwischen den Niederlanden und der Bundesrepublik Deutschland wurden die alten, 
engeren Bandbreiten aufrechterhalten, die deshalb auch in der Grafik dargestellt sind. Quelle: Datastream. 
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Wert 


Signifikanzniveau 


Minimum 


-0,117 




Maximum 


0,139 




Maximaler Wert der Log-Likelihood 


1330,87 




Mittelwert ß 


0,000033 




Standardabweichung er 


0,0281 




Schiefe 


0,262 


0,008 


Kurtosis 


2,82 


0,00 


Jarque-Bera 


211,57 


0,00 


D urbin- Watson 


2,45 


<0,01 


LB-10/ 20 (für r,) 1 


47,95 / 66,79 


0,00/0,00” 


Dickey-Fuller 


-11,66 


<0,01 


LB-10/ 20 (für r, 2 )‘ 


60,19/80,24 


0,00 / 0,00 e 


ARCH(l) 


140,28 


0,00 



Tabelle 14: Statistische Daten der Verteilung von r, 

a : LB-10 / 20: Ljung-Box-Test bis zum 10. / 20. Lag 
b : Zum 5 %-Niveau signifikant: 1., 4. und 19. Lag 
c : Zum 5 %-Niveau signifikant: 1. bis 2. und 12. Lag 

Ein Vergleich der Standardabweichung und der Spannweite der Daten mit den entsprechen- 
den Werten in Tabelle 1 (S. 71) zeigt, daß die Ausschläge des NG/DM- Wechselkurses deut- 
lich niedriger waren als die des FF/DM-Kurses. Die Schiefe der Werte ist etwas höher, die 
Kurtosis jedoch niedriger als die der FF/DM-Daten. Beide sind jedoch signifikant von Null 
verschieden, und der Jarque-Bera-Test verwirft die Nullhypothese einer Normal Verteilung der 
Daten. Interessant ist, daß der Durbin- Watson-Test und der Ljung-Box-Test die Nullhypothe- 
se der Unkorreliertheit verwerfen. Die empirische Autokorrelation erster Ordnung ist mit ei- 
nem /-Wert von -5,61 (dem absolut gesehen höchsten der /-Werte aller geschätzten Autokor- 
relationen) hochsignifikant. Der Dickey-Fuller-Test verwirft die Nullhypothese eines Random 
Walks. Der Ljung-Box-Test für die quadrierten Beobachtungen und der ARCH(1)-Test 
schließlich zeigen signifikante Autokorrelation der quadrierten Werte an. Im Vergleich zu den 
FF/DM-Daten kommt hier also zu den stylised facts ein weiteres hinzu, nämlich die Autokor- 
relation der Beobachtungen. 

Schätzt man ein AR(l)-Modell der Form 

n =<P r '- i+ w / * 

so erhält man die in Tabelle 15 dargestellten Schätzergebnisse. Die Werte der Durbin- 
Watson- und der Ljung-Box-Teststatistik (für die Residuen) zeigen, daß ein Lag in dem auto- 
regressiven Modell genügt, um die Autokorrelation in den Daten ausreichend zu modellieren. 
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Charakteristisch ist der negative Autokorrelationskoeffizient 1. Ordnung, der bedeutet, daß 
auf positive Ausschläge mit einer gewissen Regelmäßigkeit negative Ausschläge folgten. 



[f 
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DW 


LB-10/20 


Maximaler Wert der 
Log-Likelihood 


H 








1344,81 



Tabelle 15: Geschätzte Parameter eines AR(l)-Modells für r, 
a : Signifikanzniveau 



Nimmt man dieses lineare Modell als Ausgangsbasis, so kann man versuchen, die Leptokur- 
tosis und die bedingte Heteroskedastizität mit AR(l)-Regimewechselmodellen zu erklären. 

Der maximale Wert der Log-Likelihood des entsprechenden Schwellenmodells mit dem 
Zins als Schwellenindikator ist 1350,02. Der Wert der LQ-Statistik ist damit 10,42. Auf Basis 
der Faustregel aus Kapitel 6.2.2. 1.2 muß man diesen Wert mit den kritischen Werten einer 
% 2 (5)- Verteilung vergleichen. Damit liegt der /7-Wert zwischen 0,05 und 0,10. Die Nullhypo- 
these ist also in diesem Fall nicht zu verwerfen. 

Anders ist die Situation für Mischlings- und Markov-Modelle. Die Werte der LQ-Statistik 
der Tests der Nullhypothese des AR(l)-Modells gegen die Alternative eines AR(1)- 
Mischungs- bzw. eines AR(l)-Markov-Modells lauten 85,68 bzw. 140,34. Da für diese Mo- 
delle die exakte Verteilung der Teststatistiken nicht bekannt ist und keine simulierten Werte 
vorliegen, ist man auf die Faustregel aus Kapitel 62 . 2.2 angewiesen. Die kritischen Werte 
einer % 2 (5)- Verteilung und einer % 2 (6)- Verteilung zum 1 %-Niveau lauten 15,09 und 16,81. 
Man kann also auch ohne genaue Kenntnis der Verteilung der Teststatistik unter der Nullhy- 
pothese mit hinreichender Sicherheit davon ausgehen, daß die Nullhypothese in beiden Fällen 
verworfen werden muß. 

Der Wert der LQ-Statistik für den Test der Nullhypothese des Mischungs- gegen die Alter- 
native des Markov-Modells lautet 54,66. Hier sind die kritischen Werte einer % 2 (1)- Verteilung 
zu verwenden. Die Nullhypothese wird also zu allen üblichen Niveaus verworfen. Die 
Schätzwerte des aus der Testkaskade hervorgehenden AR(l)-Markov-Modells sind in Tabelle 
16 dargestellt. 
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Tabelle 16: Schätzwerte eines AR(1) -Markov-Modells für den NG/DM-Kurs 
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Auch für den (im Vergleich zum FF/DM-Kurs sehr stabilen) NG/DM-Kurs lassen sich also 
verschiedene Zustände ausmachen. Diese unterscheiden sich zum einen um einen Faktor von 
etwas mehr als 2 in den Standardabweichungen, also etwas weniger stark als für den FF/DM- 
Kurs. Der Wert der Wald-Teststatistik der Nullhypothese eines homoskedastischen Modells 
ist 170,65. Die Nullhypothese wird somit verworfen. Zum anderen sind die geschätzten auto- 
regressiven Parameter in den beiden Zuständen deutlich verschieden. Der Wert der Wald- 
Teststatistik der Nullhypothese eines Modells mit zustandsunabhängigen autoregressiven Pa- 
rametern ist 5,32 mit einem p-Wert von 0,02. Damit wird die Nullhypothese zum Niveau 5 % 
verworfen. 

Der geschätzte Fehler von <p 2 , also dem autoregressiven Parameter in dem Zustand mit der 
niedrigen Volatilität, ist relativ groß im Vergleich zu dem Schätzwert des Parameters. Der 
/-Wert ist -0,74 mit einem p-Wert von 0,46. Es bietet sich also an, das Modell mit der Re- 
striktion (p 2 = 0 zu schätzten. 186 Die Schätzergebnisse sind in Tabelle 17 wiedergegeben. 

Die Schätzergebnisse der übrigen Parameter sind kaum verändert gegenüber dem unrestrin- 
gierten Markov-Modell, ihre geschätzten Standardfehler sind durchgängig kleiner. Der Wert 
der LQ-Statistik für die Restriktion (p 2 = 0 ist 0,54, der LQ-Test führt damit zu demselben 
Ergebnis wie der zuletzt erwähnte t- Test. 
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Tabelle 17: Schätzwerte eines AR(l)-Markov-Modells für den NG/DM-Kurs mit der Restriktion (p2~0 
Der geschätzte autoregressive Parameter <p x ist noch stärker negativ als der des linearen 
Modells (-0,226, vgl. Tabelle 15). Der AR(1)-Mechanismus scheint also tatsächlich nur in 
Zustand 1 zu wirken, dort aber stärker, als es das lineare Modell, in dem die Parameter aus 
Beobachtungen aus beiden Zuständen geschätzt (also gemittelt) werden, angibt. Dies ist der 
Zustand mit der hohen Volatilität. Offensichtlich folgten großen Kursausschlägen regelmäßig 
Kursveränderungen in die jeweils andere Richtung, nicht aber kleinen Ausschlägen. Dies ist 
ein Ausdruck der starken Bindung des Gulden an die DM: Auf größere Kursbewegungen in 
Richtung der Interventionsgrenzen reagierten Marktteilnehmer (darunter u.U. auch die Zen- 
tralbank der Niederlande 187 ) sofort mit Käufen bzw. Verkäufen, die den Kurs rasch wieder in 

186 Hier liegt also der Fall vor, in dem ein Regressor nur in einem der beiden Zustände Einfluß auf die abhängige 
Variable ausübt. 

187 Die Bundesbank beteiligte sich ja prinzipiell nicht an marginalen Interventionen, vgl. S. 23. 
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die Nähe des Leitkurses brachten. Nach größeren Ausschlägen war die Richtung der Kurs- 
entwicklung also kurzfristig in einem gewissen Maße vorhersagbar. Kleinere Kursausschläge 
wurden aber von den Marktteilnehmern toleriert. Das Regimewechselmodell läßt die negative 
Autokorrelation der Daten in einem neuen Licht erscheinen und enthüllt eines der in Kapitel 
3.3 erwähnten wiederkehrenden Muster des Kursverlaufs. 

Die Bedingung r t = 0 in Zustand 2 ließe sich (wie für den FF/DM-Kurs) durch die Restrik- 
tion r t = ersetzen. 188 Schätzt man ein Modell mit diesem bedingten Mittelwert in Zustand 
2, bei ansonsten aber unveränderter Parametrisierung, so erhält man praktisch dieselben Pa- 
rameterschätzer wie in Tabelle 17 und zusätzlich =-0,000067 mit einem /-Wert von 
-0,075. Der Drift in Zustand 2 ist also nicht signifikant. Die geglätteten Wahrscheinlichkeiten 
für Zustand 1 des Modells aus Tabelle 17 sind in Abbildung 17 dargestellt. 189 




Abbildung 17: Geglättete Wahrscheinlichkeit für Zustand 1 

(Markov-Modell mit AR(l) -Mechanismus in Zustand 1) 



188 Dies wäre der Fall, in dem in den beiden Zuständen unterschiedliche Regressoren die endogene Variable 
erklären, nämlich in dem einen eine Konstante und in dem anderen die verzögert endogene Variable. 

189 Sie werden in Kapitel 10.1.3 genauer untersucht. 
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Die Implikationen für die Finanzmarkttheorie, die in Kapitel 10.1.1 erwähnt wurden, gelten 
sinngemäß auch hier, wobei aber noch die negative Autokorrelation in einem der beiden Zu- 
stände zu berücksichtigen ist. Sie hat zur Konsequenz, daß hier auch die Werte in einem ge- 
wissen Maße prognostizierbar waren (nämlich nach hohen Kursausschlägen). Daraus ließ sich 
leicht eine profitable Handelsstrategie für die Marktteilnehmer gewinnen, die umgekehrt den 
Marktteilnehmern Verluste beschert haben wird, die in diesem Sinne vorhersagbar handelten. 
Dies dürfte vorwiegend die Zentralbank der Niederlande gewesen sein, die ein Interesse daran 
hatte, den Wechselkurs in der Nähe des Leitkurses zu halten. 190 Es ist also zu vermuten, daß 
der Zentralbank der Niederlande aus der Kopplung der beiden Währungen Kosten entstanden 
sind. 

10.1.3 Vergleich der Modelle für die beiden Währungen. 

Der Zustand mit der hohen Volatilität muß in den beiden Modellen sicherlich unterschiedlich 
interpretiert werden. Der Franc näherte sich mehrfach der oberen Interventionsgrenze (vgl. 
Abbildung 4, S. 69), so daß ein Realignment durchaus im Bereich des Möglichen lag. Hier ist 
also davon auszugehen, daß - zumindest bis zur Erweiterung der Bandbreiten am 2. August 
1993 - tatsächlich Spekulation auf eine FF-Abwertung eine Rolle gespielt haben dürfte. Dies 
gilt so sicherlich nicht für den Gulden, der nie ernsthaft in die Nähe einer der Interventions- 
grenzen gelangt ist. 

Dennoch zeigt ein Vergleich der geglätteten Wahrscheinlichkeiten für den Zustand mit der 
hohen Volatilität für den FF/DM- und den NG/DM-Kurs (vgl. Abbildung 10, S. 80, und 
Abbildung 17, S. 132) einen auffälligen Gleichlauf der Entwicklung. Diese Wahrscheinlich- 
keit war in beiden Fällen hoch von Ende 1987 bis Anfang 1988, von Ende 1989 bis Ende 
1990, von Mitte 1992 bis Mitte 1994 und von Anfang 1995 bis Ende 1996. Die "Unruhe" auf 
den Märkten übertrug sich also durchaus von einer abwertungsgefährdeten Währung auf eine 
als stabil angesehene (oder andersherum). 

10.2 Eine Empirische Überprüfung der relativen 

Kaufkraftparitätentheorie am Beispiel von Monatsdaten des FF/DM- und 
des NG/DM-Kurses 

Die Mittelwerte der Veränderungsraten des FF/DM- und des NG/DM-Kurses wurden in den 
bisher dargestellten Untersuchungen nicht bzw. durch die verzögert endogene Variable er- 



190 Die Bundesbank beteiligte sich ja nicht an intramarginalen Interventionen, vgl. 3. 1.2.2. 




134 



10 Weitere empirische Ergebnisse und ökonomische Implikationen 



klärt. Dies ist vom theoretischen Standpunkt unbefriedigend: Die Kaufkraftparitätentheorie 
(vgl. Kapitel 3. 2. 1.1) in ihrer relativen Form besagt, daß diese Rate gleich der Differenz der 
Veränderungsraten der Güterpreise ist. 

Die vorherrschende Meinung ist, daß die PPP - wenn überhaupt - nur für langfristige, 
jedoch nicht für kurzfristige Veränderungsraten empirisch nachgewiesen werden kann. Dies 
soll in einer abschließenden Untersuchung anhand des FF/DM- und des NG/DM-Kurses im 
Kontext von Regimewechselmodellen überprüft werden. 

Entsprechende Preisindizes sind (zum gegenwärtigen Zeitpunkt) nur in Monatswerten bis 
einschließlich Januar 1998 verfügbar. Grundlage der Untersuchung bilden also die mit 100 
multiplizierten monatlichen logarithmischen Veränderungsraten der Wechselkurse und der 
Verbraucherpreisindizes (CPI) für die jeweiligen Länder im Zeitraum von Februar 1987 bis 
Januar 1998 (132 Beobachtungen). 191 

Sei r t =100- log(w, / w M ) und x t =100- (log(P/ / P *_ x ) - log(P, / P tA )) . Ausgangspunkt der 
Untersuchungen bildet die Gleichung 

r t = a + ßx t + u t 

mit u ~ N(0, g 2 I). Die Gültigkeit der PPP erfordert a = 0 und ß = 1 . 

Da es sich um differenzierte Daten handelt, ist es nicht verwunderlich, daß der Dickey- 
Fuller-Test mit einem Wert von -7,05 für r t und von -4,29 für x t die Nullhypothese der Inte- 
gration in beiden Fällen verwirft. Schätzt man die Gleichung nach der OLS-Methode, so er- 
hält man in beiden Fällen nicht signifikante Konstanten. In Tabelle 18 sind deshalb die Schät- 
zergebnisse mit der Restriktion a = 0 für die beiden untersuchten Wechselkurse dargestellt. 
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Tabelle 18: OLS-Schätzergebnisse der relativen PPP (ohne Konstante) 



Die Ergebnisse widersprechen in beiden Fällen klar der PPP. Die geschätzten Koeffizienten 
sind zwar positiv, aber zu klein und nicht signifikant. Die Schätzanpassung ist indiskutabel. 

Die bisherigen Untersuchungen haben gezeigt, daß bei beiden Wechselkursen offensicht- 
lich sprunghafte Verhaltensänderungen einen Teil der Charakteristika der Daten erklären 



191 



Quelle: Datastream, IMF. 

















135 



können. Deswegen wurde die PPP-Gleichung mit verschiedenen Regimewechselmodellen neu 
geschätzt. 

Für den NG/DM-Kurs war keines der untersuchten Regime Wechselmodelle signifikant. 
Daraus muß geschlossen werden, daß die enge Bindung des Gulden an die DM und die damit 
verbundenen Zentralbankeingriffe in diesem Fall keinen Zusammenhang zwischen Wechsel- 
kurs- und Preisentwicklung zugelassen haben. 

Für den FF/DM-Kurs waren verschiedene Regimewechselmodelle signifikant, mit denen 
dasselbe Testverfahren durchgeführt wurde wie mit den Wochendaten. Es führte zu einem 
Markov-Modell, dessen Regressionsparameter ß 2 in Zustand 2 gleich Null ist. Die übrigen 
geschätzten Koeffizienten sind in Tabelle 19 angegeben. 
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Tabelle 19: Schätzergebnisse des Markov-Modells (PPP) für den FF/DM-Kurs 



Die Wahrscheinlichkeit für das Verbleiben in Zustand 2 ist höher als für Zustand 1 . Dement- 
sprechend ist die unbedingte (stationäre) Wahrscheinlichkeit für Zustand 1 relativ niedrig 
(0,18), und die erwartete Verweildauer in Zustand 1 mit 2,5 Monaten geringer als in Zustand 
2 mit 1 1,2 Monaten. Interessant ist der geschätzte Koeffizient /3, in Zustand 1: Er ist signifi- 
kant von Null verschieden und liegt überraschend nahe an dem theoretisch vorhergesagten 
Wert von 1. Ein Wald-Test (d.h. ein asymptotischer /-Test) verwirft die Nullhypothese ß, = 1 
nicht. 

Die Ergebnisse lassen die Interpretation zu, daß die PPP in gewissen Phasen tatsächlich ei- 
nen Erklärungsgehalt für die Wechselkursveränderungen besessen hat. Diese Phasen machten 
aber nur einen verhältnismäßig geringen Anteil der Beobachtungen aus (gemessen an der un- 
bedingten Wahrscheinlichkeit für Zustand 1 etwa 1/5 der Werte). Die geglätteten Wahr- 
scheinlichkeiten für Zustand 1, die in Abbildung 18 dargestellt sind, geben Hinweise darauf, 
wo diese Beobachtungen liegen. Von einer kurzen Phase 1987 abgesehen sind Beobachtungen 
mit hoher geglätteter Wahrscheinlichkeit für Zustand 1 ausschließlich zwischen Anfang 1 992 
und Ende 1996 zu finden, mehrfach unterbrochen von Zeitpunkten mit niedriger geglätteter 
Wahrscheinlichkeit. Der Anfang dieses Zeitraum fallt zusammen mit dem Beginn der Krise 
des EWS. Der damit verbundene Vertrauensverlust des EWS scheint den Mechanismus der 
PPP also wenigstens teilweise (wieder) in Kraft gesetzt zu haben. 
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Diese Entwicklung überdauerte die Erweiterung der Bandbreiten im September 1993, die 
die (schwache) Bindung des Wechselkurses an die Preisentwicklung bestätigte, und endete zu 
einem Zeitpunkt, zu dem das Vertrauen der Märkte an die Leitkurse wiederkehrte und sich ein 
Übergang der Leitkurse in die Euro-Relationen nach Beginn der Währungsunion abzeichnete. 
Die beiden Zustände mit und ohne Einfluß der PPP lassen sich also auch als Phasen niedriger 
und hoher Glaubwürdigkeit des EWS deuten. 




Abbildung 18: Geglättete Wahrscheinlichkeit für Zustand 1 ( Mar kov- Modell) 

Es läßt sich daraus jedoch nicht folgern, daß die PPP in dem erwähnten Zeitraum streng Gül- 
tigkeit gehabt hätte: Immerhin ist die Standardabweichung des Störterms in diesem Zustand 
etwa 3 mal so hoch wie in dem anderen. Die PPP war also von starken anderen Einflüssen 
überlagert. 

Die Zeitpunkte mit hoher geglätteter Wahrscheinlichkeit stimmen im wesentlichen mit 
denen des Modells für die Wochendaten (Abbildung 10, S. 80) überein. Es bestand also ein 
Zusammenhang zwischen der hohen Volatilität nach der Erweiterung der Bandbreiten und der 
Tatsache, daß die Inflationsraten wieder Einfluß auf die Wechselkurse gewannen. 
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11 Schlußbemerkungen 

Im methodischen Teil dieser Arbeit wurden die Aspekte von Regime Wechselmodellen erläu- 
tert, die für empirische Untersuchungen von zentraler Bedeutung sind. Besonderes Gewicht 
wurde dabei auf zwei Punkte gelegt. Zum einen wurde die Form der Zustandsabhängigkeit 
der Parameter genau untersucht und Schätz- und Testverfahren vorgestellt, die Modelle be- 
treffen, bei denen einige, aber nicht alle Parameter zustandsabhängig sind, oder einige Para- 
meter nur in einem der Zustände auftreten. Zum anderen wurde die Testtheorie für Regime- 
wechselmodelle systematisch untersucht und an verschiedenen Stellen ausgebaut. Das betrifft 
etwa den Vergleich verschiedener Ansätze für Tests linearer gegen Regimewechselmodelle, 
von denen gezeigt wurde, daß sie sich übereinstimmend in einfachen Faustregeln für empiri- 
sche Untersuchungen zusammenfassen lassen, oder die hier erstmals untersuchte Frage nach 
Tests zwischen Schwellen- und inhomogenen Mischungs- oder Markov-Modellen, die sich 
auch für einen Test zwischen getrennten Regimewechselmodellen verwenden lassen. 

In den empirischen Untersuchungen dieser Arbeit wurden verschiedene Anwendungsmög- 
lichkeiten von Regimewechselmodellen im Zusammenhang mit Wechselkursdaten erläutert. 
Die Anwendung der im methodischen Teil entwickelten Teststrategie wurde anhand der empi- 
rischen Anwendungen demonstriert. Damit ließ sich unter den vielen in Frage kommenden 
Modellen jeweils eines aus wählen, das sparsam in der Verwendung von Parametern ist und 
dennoch eine hohe Erklärungsgüte für die Daten besitzt. 

Die Ergebnisse zeigen übereinstimmend, daß ein Schwellenmechanismus im Sinne von 
Bekaert und Gray [1998], dessen Schwellenindikator durch die Zinsdifferenz dargestellt 
wird, keine adäquate Beschreibung der Daten liefert. Obwohl das entsprechende Modell für 
Wochendaten eine gewisse Erklärungsgüte zu besitzen scheint, haben sich die Markov- 
Modelle in den empirischen Untersuchungen grundsätzlich überlegen gezeigt. 

Mit Hilfe der Markov-Modelle gelang es, verschiedene Charakteristika der Daten in einem 
einheitlichen Rahmen zu modellieren. Dies betrifft zum einen die statistischen und zeitrei- 
hentheoretischen Aspekte, denen in der Finanzmarktökonometrie große Aufmerksamkeit ge- 
widmet wird, also insbesondere die starke Leptokurtosis der Renditen, die stochastische Vo- 
latilität, die sich in der Häufung von Beobachtungen mit hoher und mit niedriger Volatilität 
niederschlägt, und die zeitvariable Autokorrelation der Renditen. Zum anderen wurde demon- 
striert, daß die Gültigkeit makroökonomischer Zusammenhänge - etwa hier der relativen 
Kaufkraftparitätentheorie -, die sich in Untersuchungen mit klassischen Regressionsmodellen 
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empirisch nicht nachweisen lassen, im Kontext von Regimewechselmodellen, die Verhal- 
tensänderungen der beteiligten Subjekte berücksichtigen, in neuem Licht erscheinen kann. 

Für all diese Aspekte, die sich mit linearen Modellen nicht erfassen lassen, gibt es jeweils 
Alternativen zu Regimewechselmodellen. Die Stärke von Regimewechselmodellen liegt aber 
gerade darin, daß sie einen einheitlichen Zugang zu diesen Gesichtspunkten aus der Zeitrei- 
hentheorie, der statistischen Analyse von Renditeverteilungen und der Makroökonometrie 
gestatten. Mit Hilfe dieser Modelle werden verschiedene stylised facts durch ein Prinzip er- 
klärt, durch periodische Verhaltensänderungen der beteiligten Akteure. 

Da es deutliche Hinweise darauf gibt, daß die Niveaus von Wechselkursen nicht stationär 
sind, wäre es von Interesse, die Untersuchungen etwa auf integrierte Prozesse auszudehnen. 
Dies würde die Entwicklung eines völlig neuen Methodenapparates erfordern, der die hier 
behandelten Verfahren mit der Kointegrationsmethodik verbindet. Erste Ansätze in diese 
Richtung stellen die Überlegungen in Hall, Psaradakis und Sola [1997] und Krolzig 
[1997], S. 297 ff, dar. 

Vom empirischen Gesichtspunkt stellt sich die Frage, ob sich die dargestellten Ergebnisse 
über das EWS auch für den seit Januar 1999 bestehenden europäischen Wechselkursmecha- 
nismus, den WKM II, nachweisen lassen. Mit Dänemark und Griechenland sind dem WKM II 
je ein Land mit als stabil geltender bzw. mit abwertungsgefährdeter Währung beigetreten, so 
daß eine Konstellation vorliegt, die in mancher Hinsicht mit der hier untersuchten Situation 
vergleichbar ist. 
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